Tecnología

Los investigadores desarrollan una aplicación AI para ayudar a los usuarios con discapacidad del habla a comunicarse más naturalmente.

Crédito: https://www.isca-archive.org/interspeech_2024/mohan24_interspeech.pdf

Más de 250 millones de personas en todo el mundo tienen trastornos de comunicación verbal que dificultan el uso de programas automáticos de reconocimiento de voz. Simplemente compartir lo que les gustaría comer para cenar usando ASR es engorroso.

El resultado sale en una voz de audio genérica que no refleja el estado de ánimo del altavoz. Y dado que la voz humana está tan estrechamente vinculada a la identidad, cuando una herramienta de comunicación suena como una máquina o no funciona en absoluto, el usuario puede preocuparse de que su personalidad sea malinterpretada.

Los investigadores de la Universidad del Nordeste están trabajando para cambiar eso. Los profesores de informática Aanchan Mohan y Mirjana PRPA están desarrollando una aplicación integrada de AI que brindará a los usuarios con discapacidad del habla a una variedad de herramientas de comunicación en sus teléfonos: reconocimiento de voz, texto, selección de palabras enteras, emojis y síntesis personalizada de texto a voz.

“Las personas usan el reconocimiento de voz de forma aislada, o usan texto a voz de forma aislada, o escriben aislados”, dijo Mohan. “Nadie había reunido los tres”.

Están llamando a la aplicación hablar facilidad. Utilizando modelos de idiomas grandes para predecir las próximas frases de un usuario, la aplicación facilitará que las personas con trastornos de comunicación conversen en tiempo real. Pero lo que lo hace diferente de otro software automático de reconocimiento de voz es que permitirá a los usuarios comunicarse en sus propias voces con la expresión específica del estado de ánimo que eligen.

“La expresividad siempre está en una espalda porque todos están tratando de resolver el problema de la velocidad”, dijo PRPA. “Muy poca investigación realmente se centró en resolver el problema de si el discurso proporcionó sonar como al usuario le gustaría sonar”.

El software Mohan y PRPA están construyendo más allá del reconocimiento automático de voz y cae en la categoría de software de comunicación aumentativa y alternativa, que enfatiza la conciencia y la autenticidad del contexto a medida que los usuarios hablan y escriben. Las transcripciones se pueden editar para corregir errores, y la aplicación sugiere frases contextualmente relevantes con un tono emocional sugerido por la IA.

Mohan y PRPA presentaron un documento y un video sobre la aplicación en agosto en Interspeech, una conferencia sobre la ciencia y la tecnología del procesamiento del lenguaje hablado.

Crédito: Universidad del Nordeste

PRPA, cuya investigación se centra en las interacciones humanas-computadora, y Mohan, que trabaja en el procesamiento del lenguaje natural, se basan en el campus de Vancouver de Northeastern.

“Nos dimos cuenta de que podría haber mucho potencial para aprovechar modelos de idiomas grandes para ayudar a las personas que tienen desafíos de comunicación”, dijo PRPA.

Están desarrollando la aplicación con la ayuda de los patólogos de lenguaje del habla, que enfatizaron que los usuarios desean herramientas digitales que enfatizan la expresividad y no solo la velocidad. A través de las evaluaciones de grupos focales, han identificado formas que hablan facilidad puede mejorar la expresividad al dar a los usuarios más formas de personalizar la comunicación.

Mohan y PRPA trabajaron con una agencia asociada en Columbia Británica, asistencia de comunicación para jóvenes y adultos, cuyos patólogos del habla y el lenguaje proporcionaron aportes en el desarrollo de la aplicación.

Usando muestras de voz de un usuario, la aplicación eventualmente podrá convertir el discurso atípico en una versión más inteligible. Un usuario que quiere componer un mensaje a su padre en un tono feliz, por ejemplo, puede usar el “modo de hablar” de la aplicación para crear una transcripción, que puede editar y reproducir en su propia voz utilizando software de texto a voz.

Las características del modelo de idioma grande de la aplicación utilizarán conversaciones pasadas entre el usuario y su padre para sugerir palabras y frases relevantes. Y los usuarios pueden seleccionar entre opciones en la interfaz para elegir un estado de ánimo para el mensaje.

“Lo que estamos buscando en nuestra aplicación es que cuando hablo con mamá, o alguien de mi familia, podría querer sonar muy diferente a cuando hablo en la escuela”, dijo PRPA.

Las muestras de discurso preservadas harían que la aplicación sea útil para alguien con una condición degenerativa, dijo PRPA, que perjudica su capacidad de comunicarse. A medida que su capacidad se deteriora, pueden usar la aplicación para continuar “hablando” como pretenden hacerlo. La misma característica podría usarse en el contexto opuesto, para alguien que se recupere de un derrame cerebral. Hablar la facilidad podría apoyar a una persona a medida que ganan la capacidad de hablar nuevamente.

Además de agregar expresividad, la aplicación está destinada a proporcionar claridad. Un ejemplo de cuándo podría ser útil es una visita al consultorio del médico. Algunas personas con dificultades del habla les resulta difícil ser entendido por profesionales médicos.

“Digamos que un individuo con síndrome de Down está describiendo una condición”, dijo Mohan. “La gente tiende a ser educada, que la persona termine y diga: ‘¿Puedes decir eso de nuevo, verdad?’ Lo que significa que no entendieron “.

Speak Facle ayudará en estas situaciones al proporcionar una transcripción en tiempo real que puede corregirse y leer en voz alta, ambas preguntas aclaratorias en el momento y al hacerlo en la voz del orador.

Mohan reconoce que este es un desafío técnico.

“La intención es poder capturar lo que se transcribió versus lo que finalmente se compone, tomar la diferencia entre los dos y usar eso para señalar para entrenar el sistema”, dijo.

Más información: una herramienta de composición de AAC poderosa y moderna para altavoces deteriorados. www.isca-archive.org/interspee … an24_interspeech.pdf

Proporcionado por la Universidad del Nordeste

Esta historia se vuelve a publicar por cortesía de Northeastern Global News News.northeastern.edu.

Cita: los investigadores desarrollan una aplicación AI para ayudar a los usuarios con discapacidad del habla se comunican más naturalmente (2025, 24 de marzo) Recuperado el 24 de marzo de 2025 de https://techxplore.com/news/2025-03-ai-appesta-peech-users.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Back to top button