El sistema robótico se centra en los objetos más relevantes para ayudar a los humanos

Utilizando un marco de relevancia novedoso desarrollado en el MIT, el robot identifica y prioriza objetos en la escena para ayudar de manera autónoma a los humanos de una manera perfecta, inteligente y segura. Crédito: Instituto de Tecnología de Massachusetts
Para un robot, el mundo real es mucho para asimilar. Dar sentido a cada punto de datos en una escena puede requerir una gran cantidad de esfuerzo y tiempo computacionales. Usar esa información para decidir cómo ayudar mejor a un humano es un ejercicio aún más espinoso.
Ahora, los robotistas del MIT tienen una manera de cortar el ruido de los datos, para ayudar a los robots a centrarse en las características en una escena que son más relevantes para ayudar a los humanos.
Su enfoque, que denominan “relevancia”, permite que un robot use señales en una escena, como la información de audio y visual, para determinar el objetivo de un humano y luego identificar rápidamente los objetos que probablemente sean relevantes para cumplir ese objetivo. Luego, el robot lleva a cabo un conjunto de maniobras para ofrecer de manera segura los objetos o acciones relevantes al humano. El documento está disponible en el servidor ARXIV Preprint.
Los investigadores demostraron el enfoque con un experimento que simuló un buffet de desayuno de la conferencia. Configuraron una mesa con varias frutas, bebidas, bocadillos y vajilla, junto con un brazo robótico equipado con un micrófono y una cámara. Aplicando el nuevo enfoque de relevancia, mostraron que el robot pudo identificar correctamente el objetivo de un humano y ayudarlos adecuadamente en diferentes escenarios.
En un caso, el robot tomó señales visuales de un humano que buscaba una lata de café preparado, y rápidamente le entregó leche a la persona y un palito de revuelo. En otro escenario, el robot recogió una conversación entre dos personas que hablaban de café, y les ofreció una lata de café y crema.
En general, el robot pudo predecir el objetivo de un humano con una precisión del 90% e identificar objetos relevantes con una precisión del 96%. El método también mejoró la seguridad de un robot, reduciendo el número de colisiones en más del 60%, en comparación con la realización de las mismas tareas sin aplicar el nuevo método.
“Este enfoque de permitir relevancia podría facilitar mucho que un robot interactúe con los humanos”, dice Kamal Yocef-Toumi, profesor de ingeniería mecánica en el MIT. “Un robot no tendría que hacerle a un humano tantas preguntas sobre lo que necesita. Simplemente tomaría información activamente de la escena descubrir cómo ayudar”.
El grupo de YoceF-Toumi está explorando cómo los robots programados con relevancia pueden ayudar en la fabricación inteligente y la configuración de almacén, donde imaginan robots que trabajan junto a los humanos intuitivamente.
Yocef-Toumi, junto con los estudiantes graduados Xiaotong Zhang y Dingcheng Huang, presentarán su nuevo método en la Conferencia Internacional de Robótica y Automatización de IEEE (ICRA 2025) en mayo. El trabajo se basa en otro artículo presentado en ICRA el año anterior.
Encontrar enfoque
El enfoque del equipo se inspira en nuestra propia capacidad de medir lo que es relevante en la vida diaria. Los humanos pueden filtrar distracciones y centrarse en lo que es importante, gracias a una región del cerebro conocida como Sistema de activación reticular (RAS). El Ras es un paquete de neuronas en el tronco encefálico que actúa inconscientemente para podar estímulos innecesarios, para que una persona pueda percibir conscientemente los estímulos relevantes.
El RAS ayuda a evitar una sobrecarga sensorial, manteniéndonos, por ejemplo, para fijar en cada artículo en un mostrador de cocina, y en su lugar nos ayuda a concentrarnos en verter una taza de café.
“Lo sorprendente es que estos grupos de neuronas filtran todo lo que no es importante, y luego tiene el enfoque cerebral en lo que es relevante en ese momento”, explica Yocef-Tumi. “Eso es básicamente lo que es nuestra proposición”.
Él y su equipo desarrollaron un sistema robótico que imita ampliamente la capacidad de los RA para procesar y filtrar información selectivamente. El enfoque consta de cuatro fases principales. La primera es una etapa de “percepción” de vigilancia, durante la cual un robot toma señales audio y visuales, por ejemplo, desde un micrófono y una cámara, que se alimentan continuamente en un “kit de herramientas” de IA.
Este conjunto de herramientas puede incluir un modelo de lenguaje grande (LLM) que procesa conversaciones de audio para identificar palabras y frases clave, y varios algoritmos que detectan y clasifican objetos, humanos, acciones físicas y objetivos de tareas. El kit de herramientas AI está diseñado para funcionar continuamente en el fondo, de manera similar al filtrado subconsciente que realiza el RAS del cerebro.
La segunda etapa es una fase de “verificación de activación”, que es una verificación periódica que el sistema funciona para evaluar si está sucediendo algo importante, como si un humano está presente o no. Si un humano ha entrado en el medio ambiente, la tercera fase del sistema se activará. Esta fase es el corazón del sistema del equipo, que actúa para determinar las características en el entorno que probablemente sean relevantes para ayudar al humano.
Para establecer relevancia, los investigadores desarrollaron un algoritmo que toma predicciones en tiempo real hechas por el kit de herramientas de IA. Por ejemplo, el LLM de Toolkit puede recoger la palabra clave “Coffee”, y un algoritmo de clamena de acción puede etiquetar a una persona que alcanza una taza para tener el objetivo de “hacer café”.
El método de relevancia del equipo tendrá en cuenta esta información para determinar primero la “clase” de los objetos que tienen la mayor probabilidad de ser relevante para el objetivo de “hacer café”. Esto podría filtrar automáticamente clases como “frutas” y “bocadillos”, a favor de “tazas” y “cremas”.
El algoritmo se filtraría más dentro de las clases relevantes para determinar los “elementos” más relevantes. Por ejemplo, según las señales visuales del medio ambiente, el sistema puede etiquetar una taza más cercana a una persona como más relevante y útil, que una taza que está más lejos.
En la cuarta y última fase, el robot tomaría los objetos relevantes identificados y planificaría una ruta para acceder físicamente y ofrecer los objetos al humano.
Modo auxiliar
Los investigadores probaron el nuevo sistema en experimentos que simulan un buffet de desayuno de la conferencia. Eligieron este escenario basado en el conjunto de datos de acciones de desayuno disponibles públicamente, que comprende videos e imágenes de actividades típicas que las personas realizan durante el desayuno, como preparar café, panqueques de cocina, hacer cereales y freír huevos. Las acciones en cada video e imagen están etiquetadas, junto con el objetivo general (huevos de freír, versus hacer café).
Usando este conjunto de datos, el equipo probó varios algoritmos en su kit de herramientas de IA, de modo que, al recibir acciones de una persona en una nueva escena, los algoritmos podrían etiquetar con precisión y clasificar las tareas y objetivos humanos, y los objetos relevantes asociados.
En sus experimentos, establecieron un brazo robótico y una pinza e instruyeron al sistema para ayudar a los humanos cuando se acercaban a una mesa llena de varias bebidas, bocadillos y vajilla. Descubrieron que cuando no había humanos presentes, el kit de herramientas de IA del robot funcionaba continuamente en segundo plano, etiquetando y clasificando objetos en la tabla.
Cuando, durante una verificación del activador, el robot detectó un humano, llamó la atención, encendió su fase de relevancia e identificando rápidamente objetos en la escena que tenían más probabilidades de ser relevantes, en función del objetivo del humano, que fue determinado por el kit de herramientas de IA.
“La relevancia puede guiar al robot para generar asistencia perfecta, inteligente, segura y eficiente en un entorno altamente dinámico”, dice el coautor Zhang.
En el futuro, el equipo espera aplicar el sistema a escenarios que se asemejan a los entornos de trabajo y almacén, así como a otras tareas y objetivos que generalmente se realizan en entornos domésticos.
“Me gustaría probar este sistema en mi casa para ver, por ejemplo, si estoy leyendo el papel, tal vez pueda traerme café. Si estoy lavando la ropa, me puede traer una cápsula de lavandería. Si estoy reparando, me puede traer un destornillador”, dice Zhang. “Nuestra visión es permitir interacciones humanas-robot que pueden ser mucho más naturales y fluidas”.
Más información: Xiaotong Zhang et al, toma de decisiones impulsadas por relevancia para una colaboración de robot humanos más segura y eficiente, ARXIV (2024). Doi: 10.48550/arxiv.2409.13998
Información en la revista: ARXIV proporcionado por el Instituto de Tecnología de Massachusetts
Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/NewsOffice/), un sitio popular que cubre noticias sobre la investigación del MIT, la innovación y la enseñanza.
Cita: el sistema robótico se centra en los objetos más relevantes para ayudar a los humanos (2025, 24 de abril) recuperado el 24 de abril de 2025 de https://techxplore.com/news/2025-04-Robotic- Zeroes-relevant-humans.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.