Tecnología

El estudio muestra cómo medir la desalineación

Crédito: Tara Winstead de Pexels

Idealmente, los agentes de inteligencia artificial tienen como objetivo ayudar a los humanos, pero ¿qué significa eso cuando los humanos quieren cosas en conflicto? Mis colegas y yo hemos encontrado una manera de medir la alineación de los objetivos de un grupo de humanos y agentes de IA.

El problema de alineación, seguro de que los sistemas de IA actúan de acuerdo con los valores humanos, se ha vuelto más urgente a medida que las capacidades de IA crecen exponencialmente. Pero alinear la IA con la humanidad parece imposible en el mundo real porque todos tienen sus propias prioridades. Por ejemplo, un peatón podría querer un automóvil autónomo que golpee los frenos si parece probable un accidente, pero un pasajero en el automóvil podría preferir desviarse.

Al observar ejemplos como este, desarrollamos una puntuación para la desalineación basada en tres factores clave: los humanos y los agentes de IA involucrados, sus objetivos específicos para diferentes temas y cuán importante es cada problema para ellos. Nuestro modelo de desalineación se basa en una visión simple: un grupo de humanos y agentes de IA están más alineados cuando los objetivos del grupo son más compatibles.

En las simulaciones, encontramos que la desalineación alcanza su punto máximo cuando los objetivos se distribuyen uniformemente entre los agentes. Esto tiene sentido: si todos quieren algo diferente, el conflicto es el más alto. Cuando la mayoría de los agentes comparten el mismo objetivo, la desalineación cae.

Por que importa

La mayoría de la investigación de seguridad de IA trata la alineación como una propiedad de todo o nada. Nuestro marco muestra que es más complejo. La misma IA puede estar alineada con los humanos en un contexto pero desalineada en otro.

Esto es importante porque ayuda a los desarrolladores de IA a ser más precisos sobre lo que significan con IA alineada. En lugar de objetivos vagos, como alinearse con los valores humanos, los investigadores y desarrolladores pueden hablar sobre contextos y roles específicos para la IA más claramente. Por ejemplo, un sistema de recomendación de IA, aquellos que le gustan “las sugerencias de productos, que atrae a alguien a hacer una compra innecesaria podría alinearse con el objetivo del minorista de aumentar las ventas, pero desalineada con el objetivo del cliente de vivir dentro de sus medios.

Para los formuladores de políticas, los marcos de evaluación como el nuestro ofrecen una forma de medir la desalineación en los sistemas que están en uso y crean estándares para la alineación. Para los desarrolladores de IA y los equipos de seguridad, proporciona un marco para equilibrar los intereses de las partes interesadas en competencia.

Para todos, tener una comprensión clara del problema hace que las personas sean mejor capaces de ayudar a resolverlo.

Qué otra investigación está sucediendo

Para medir la alineación, nuestra investigación supone que podemos comparar lo que los humanos quieren con lo que la IA quiere. Los datos de valor humano se pueden recopilar a través de encuestas, y el campo de la elección social ofrece herramientas útiles para interpretarlo para la alineación de la IA. Desafortunadamente, aprender los objetivos de los agentes de IA es mucho más difícil.

Los sistemas de IA más inteligentes de hoy en día son modelos de idiomas grandes, y su naturaleza de caja negra hace que sea difícil aprender los objetivos de los agentes de IA como ChatGPT que alimentan. La investigación de interpretabilidad podría ayudar revelando los “pensamientos” internos de los modelos, o los investigadores podrían diseñar una IA que piense transparentemente para empezar. Pero por ahora, es imposible saber si un sistema de IA está realmente alineado.

¿Qué sigue?

Por ahora, reconocemos que a veces los objetivos y las preferencias no reflejan completamente lo que los humanos quieren. Para abordar escenarios más difíciles, estamos trabajando en enfoques para alinear la IA con los expertos en filosofía moral.

En el futuro, esperamos que los desarrolladores implementen herramientas prácticas para medir y mejorar la alineación entre diversas poblaciones humanas.

Proporcionado por la conversación

Este artículo se vuelve a publicar de la conversación bajo una licencia Creative Commons. Lea el artículo original.

Cita: Obtener AIS trabajando hacia los objetivos humanos: el estudio muestra cómo medir la desalineación (2025, 14 de abril) Recuperado el 14 de abril de 2025 de https://techxplore.com/news/2025-04-ais-human-goals-misalignment.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Back to top button