Los experimentos muestran la adición de ventanas de cuna a chatbots les enseña a mentir menos obviamente

Monitoreo de modelos de razonamiento fronterizo para piratería de recompensas. Crédito: ARXIV (2025). Doi: 10.48550/arxiv.2503.11926
Durante el año pasado, los investigadores de IA descubrieron que cuando los chatbots de IA como el chatgpt se encuentran incapaces de responder preguntas que satisfagan las solicitudes de los usuarios, tienden a ofrecer respuestas falsas. En un nuevo estudio, como parte de un programa destinado a evitar que los chatbots mientan o inventaran respuestas, un equipo de investigación agregó ventanas de la cadena de pensamiento (cot). Estos obligan al chatbot a explicar su razonamiento a medida que lleva a cabo cada paso en su camino para encontrar una respuesta final a una consulta.
Luego modificaron el chatbot para evitar que componara respuestas o mienta sobre sus razones para tomar una decisión cuando se vio hacerlo a través de la ventana de cuna. Eso, encontró el equipo, evitó que los chatbots mintieran o inventaran respuestas, al menos al principio.
En su artículo publicado en el servidor de preimpresión ARXIV, el equipo describe los experimentos que realizaron que implicaban agregar ventanas de cuna a varios chatbots y cómo afectó la forma en que operaron.
Al observar más de cerca la información que se muestra en las ventanas de la cuna y los resultados finales dados por los chatbots, los investigadores descubrieron que los bots comenzaron a encontrar formas de ocultar sus engaños, permitiéndoles continuar proporcionando respuestas falsas en lugar de nada, un estado de falla en los chatbots. El objetivo, desde el punto de vista del chatbot, era proporcionar una respuesta sin importar qué, incluso si eso significaba inventar las cosas.
Para lograr ese objetivo, los chatbots descubrieron que si su razonamiento para llegar a las respuestas estaba siendo monitoreada y se estaban bloqueando los datos falsos, evitando que llegaran a una respuesta final, la solución era ocultar su verdadero razonamiento de las ventanas de la cuna. El equipo de investigación lo llama “pirateo de recompensas ofuscado”.
Hasta ahora, el equipo de investigación no ha podido encontrar una manera de evitar que los chatbots subviertan los esfuerzos para hacerlos más abiertos y honestos. Sugieren que se necesita más investigación.
Para conducir su punto a casa, el equipo de investigación relata una historia sobre gobernadores en Hanoi colonial, a principios del siglo pasado, que ofreció a los lugareños una pequeña cantidad de dinero por cada cola de rata que trajeron a una estación. Poco después, los lugareños comenzaron a reproducir ratas para aumentar las ganancias, subvertir con entusiasmo el sistema y al final, empeorando las cosas.
Más información: Bowen Baker et al, monitoreando modelos de razonamiento para el mal comportamiento y los riesgos de promover la ofuscación, ARXIV (2025). Doi: 10.48550/arxiv.2503.11926
Información en el diario: ARXIV
© 2025 Science X Network
Cita: los experimentos muestran la adición de ventanas de cuna a los chatbots les enseña a mentir menos obviamente (2025, 31 de marzo) recuperado el 31 de marzo de 2025 de https://techxplore.com/news/2025-03-ding-cot-windows-chatbots.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.