¿Qué es el aprendizaje de refuerzo? Un investigador de IA explica un método clave para enseñar máquinas

Crédito: dominio público CC0
Comprender la inteligencia y la creación de máquinas inteligentes son grandes desafíos científicos de nuestros tiempos. La capacidad de aprender de la experiencia es una piedra angular de inteligencia para máquinas y seres vivos por igual.
En un informe notablemente profético de 1948, Alan Turing, el padre de la informática moderna, proporcionó la construcción de máquinas que muestran un comportamiento inteligente. También discutió la “educación” de tales máquinas “mediante recompensas y castigos”.
Las ideas de Turing finalmente llevaron al desarrollo del aprendizaje de refuerzo, una rama de la inteligencia artificial. El refuerzo de aprendizaje diseña agentes inteligentes capacitándolos para maximizar las recompensas a medida que interactúan con su entorno.
Como investigador de aprendizaje automático, me parece apropiado que los pioneros de aprendizaje de refuerzo Andrew Barto y Richard Sutton recibieran el premio 2024 ACM Turing.
¿Qué es el aprendizaje de refuerzo?
Los entrenadores de animales saben que el comportamiento animal puede verse influenciado por los comportamientos deseables recompensas. Un entrenador de perros le da al perro un regalo cuando hace un truco correctamente. Esto refuerza el comportamiento, y es más probable que el perro haga el truco correctamente la próxima vez. El aprendizaje de refuerzo tomó prestada esta idea de la psicología animal.
Pero el aprendizaje de refuerzo se trata de capacitar a los agentes computacionales, no a los animales. El agente puede ser un agente de software como un programa de juego de ajedrez. Pero el agente también puede ser una entidad encarnada como un robot que aprende a hacer tareas domésticas. Del mismo modo, el entorno de un agente puede ser virtual, como el tablero de ajedrez o el mundo diseñado en un videojuego. Pero también puede ser una casa donde funciona un robot.
Al igual que los animales, un agente puede percibir aspectos de su entorno y tomar medidas. Un agente de juego de ajedrez puede acceder a la configuración del tablero de ajedrez y hacer movimientos. Un robot puede sentir su entorno con cámaras y micrófonos. Puede usar sus motores para moverse en el mundo físico.
Los agentes también tienen objetivos en los que sus diseñadores humanos se programan en ellos. El objetivo de un agente de ajedrez es ganar el juego. El objetivo de un robot podría ser ayudar a su propietario humano con las tareas domésticas.
El problema de aprendizaje de refuerzo en IA es cómo diseñar agentes que logren sus objetivos al percibir y actuar en sus entornos. El aprendizaje de refuerzo hace una afirmación audaz: todos los objetivos se pueden lograr diseñando una señal numérica, llamada recompensa y que el agente maximice la suma total de las recompensas que recibe.
Los investigadores no saben si esta afirmación es realmente cierto, debido a la amplia variedad de objetivos posibles. Por lo tanto, a menudo se conoce como la hipótesis de recompensa.
A veces es fácil elegir una señal de recompensa correspondiente a un objetivo. Para un agente de juego de ajedrez, la recompensa puede ser +1 para una victoria, 0 para un empate y -1 para una pérdida. Está menos claro cómo diseñar una señal de recompensa para un asistente robótico doméstico útil. Sin embargo, la lista de aplicaciones en las que los investigadores de aprendizaje de refuerzo han podido diseñar buenas señales de recompensa están creciendo.
Un gran éxito del aprendizaje de refuerzo fue en el juego de mesa. Los investigadores pensaron que GO era mucho más difícil que el ajedrez para que las máquinas dominen. La compañía DeepMind, ahora Google Deepmind, utilizó el aprendizaje de refuerzo para crear Alphago. Alphago derrotó al jugador de Top Go Lee Sedol en un juego de cinco partidos en 2016.
Un ejemplo más reciente es el uso del aprendizaje de refuerzo para hacer que los chatbots como ChatGPT sean más útiles. El aprendizaje de refuerzo también se está utilizando para mejorar las capacidades de razonamiento de los chatbots.
Orígenes del aprendizaje de refuerzo
Sin embargo, ninguno de estos éxitos podría haber sido previsto en la década de 1980. Fue entonces cuando Barto y su entonces-Ph.D. El estudiante Sutton propuso el aprendizaje de refuerzo como un marco general de resolución de problemas. Se inspiraron no solo en la psicología animal sino también del campo de la teoría del control, el uso de la retroalimentación para influir en el comportamiento de un sistema y la optimización, una rama de las matemáticas que estudia cómo seleccionar la mejor opción entre una variedad de opciones disponibles. Proporcionaron a la comunidad de investigación cimientos matemáticos que han resistido la prueba del tiempo. También crearon algoritmos que ahora se han convertido en herramientas estándar en el campo.
Es una ventaja rara para un campo cuando los pioneros se toman el tiempo de escribir un libro de texto. Los ejemplos brillantes como “La naturaleza del enlace químico” de Linus Pauling y “El arte de la programación de computadoras” de Donald E. Knuth son memorables porque son pocos y distantes entre sí. El “Aprendizaje de refuerzo: una introducción” de Sutton y Barto se publicó por primera vez en 1998. Una segunda edición salió en 2018. Su libro ha influido en una generación de investigadores y ha sido citado más de 75,000 veces.
El aprendizaje de refuerzo también ha tenido un impacto inesperado en la neurociencia. La dopamina del neurotransmisor juega un papel clave en los comportamientos impulsados por las recompensas en humanos y animales. Los investigadores han utilizado algoritmos específicos desarrollados en el aprendizaje de refuerzo para explicar los hallazgos experimentales en el sistema de dopamina de personas y animales.
El trabajo fundamental, la visión y la defensa de Barto y Sutton han ayudado a refuerzo del aprendizaje a crecer. Su trabajo ha inspirado una gran cantidad de investigación, ha tenido un impacto en las aplicaciones del mundo real y ha atraído grandes inversiones de las compañías tecnológicas. Los investigadores de aprendizaje de refuerzo, estoy seguro, continuarán viendo más adelante al pararse sobre sus hombros.
Proporcionado por la conversación
Este artículo se vuelve a publicar de la conversación bajo una licencia Creative Commons. Lea el artículo original.
Cita: ¿Qué es el aprendizaje de refuerzo? Un investigador de IA explica un método clave de máquinas de enseñanza (2025, 7 de abril) recuperado el 7 de abril de 2025 de https://techxplore.com/news/2025-04-ai-key-method-machines.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.