Tecnología

La tecnología de filtro de voz equilibra la privacidad y la utilidad en dispositivos inteligentes

Crédito: dominio público Unsplash/CC0

El sonido es una poderosa fuente de información. Mediante algoritmos de entrenamiento para identificar firmas de sonido distintas, el sonido puede revelar lo que está haciendo una persona, ya sea cocinar, aspirarse o lavar los platos. Y si bien es valioso en algunos contextos, el uso del sonido para identificar actividades viene con problemas de privacidad, ya que los micrófonos pueden revelar información confidencial.

Para permitir la detección de audio sin comprometer la privacidad, los investigadores de la Universidad Carnegie Mellon desarrollaron un filtro en el dispositivo, llamado Kirigami, que pueden detectar y eliminar segmentos de habla humana recopilados por sensores de audio antes de que se usen para el reconocimiento de actividades.

“Los datos contenidos en el sonido pueden ayudar a impulsar aplicaciones valiosas como el reconocimiento de actividades, el monitoreo de la salud e incluso la detección ambiental. Sin embargo, esos datos también pueden usarse para invadir la privacidad de las personas”, dijo Sudershan Boovaraghavan, quien obtuvo su Ph.D. del departamento de software y sistemas sociales (S3D) en la Escuela de Informática de CMU. “Kirigami se puede instalar en una variedad de sensores con un micrófono desplegado en el campo para filtrar el habla antes de que los datos se envíen al sensor, protegiendo así la privacidad de las personas”.

Muchas técnicas existentes para preservar la privacidad en la detección de audio implican alterar o transformar los datos, excluidos de ciertas frecuencias del espectro de audio o capacitar a la computadora para ignorar el habla humana. Si bien estos métodos son bastante efectivos para hacer que las conversaciones sean indescifrables para los humanos, la IA generativa tiene asuntos complicados. Los programas de reconocimiento de voz como Whisper by OpenAI pueden reunir fragmentos de conversaciones de audio procesado que alguna vez fueron inescrutables.

“Dada la gran cantidad de datos que tienen estos modelos, algunas de las técnicas anteriores dejarían suficiente información residual, pequeños fragmentos, que pueden ayudar a recuperar parte del contenido del habla”, dijo Yuvraj Agarwal, profesor asociado en S3D, el Instituto de Interacción de Computaciones Humanas (HCII) y el Departamento de Ingeniería Eléctrica e Informática de la Colegio de Ingeniería. “Kirigami puede evitar que estos modelos tengan acceso a esos fragmentos”.

En el mundo actual, dispositivos como altavoces inteligentes que priorizan la utilidad sobre la privacidad pueden esencialmente alegar todo lo que dice la gente. Si bien la opción de preservación de la privacidad más agresiva sería evitar el uso de micrófonos, tal acción impediría que las personas cosechen los beneficios de un poderoso medio de detección. Agarwal y sus colaboradores querían encontrar una solución para los desarrolladores que les permitieran equilibrar la privacidad y la utilidad.

La intuición de los investigadores era diseñar un filtro ligero que pudiera ejecutarse incluso en los microcontroladores más pequeños y asequibles. Ese filtro podría identificar y eliminar el contenido probable del habla para que los datos confidenciales nunca abandonen el dispositivo, lo que a menudo se llama procesamiento en el borde.

El filtro funciona como un simple clasificador binario de si hay un discurso en el audio. El equipo diseñó el filtro analizando empíricamente la tasa de reconocimiento de contenido del habla filtrado de los modelos de reconocimiento de voz automático basados ​​en el aprendizaje profundo.

Kirigami también equilibra cuán agresivamente elimina el contenido del habla con un umbral configurable. Con un umbral agresivo, el filtro prioriza la eliminación de discursos, pero también puede recortar un audio no de paciencia que podría ser útil para otras aplicaciones. Con un umbral menos agresivo, el filtro permite que se pasen más sonidos ambientales y de actividad para mejores valores de aplicación, pero aumenta el riesgo de que algún contenido relacionado con el habla sea más allá del sensor.

“Kirigami corta la mayor parte del contenido del habla, pero no los otros sonidos ambientales que le importan por el reconocimiento de actividades”, dijo Haozhe Zhou, un estudiante de doctorado S3D que dirigió el proyecto con Boovaraghavan. “Todavía puede acoplarlo con técnicas previas para darle privacidad adicional”.

Actualmente, los investigadores están explorando muchas aplicaciones útiles para la detección de actividades. Por ejemplo, Mayank Goel, profesor asociado en S3D y HCII, utiliza la detección de audio para recordar a las personas que viven con demencia de tareas diarias, monitorean a los niños con un trastorno por déficit de atención/hiperactividad para anomalías conductuales y evalúan los estudiantes de la depresión.

“Estos son solo ejemplos que se están haciendo en nuestros laboratorios”, dijo Goel. “Encontrará escenarios similares en todo el mundo donde necesita datos no invasivos de la persona sobre su vida diaria”.

A medida que el interés en la infraestructura doméstica inteligente y el internet de las cosas continúan creciendo, el equipo cree que los desarrolladores podrían ajustar fácilmente a Kirigami para satisfacer sus necesidades de privacidad únicas.

Los documentos que detallan Kirigami aparecieron tanto en las Actas de la ACM sobre tecnologías interactivas, móviles, portátiles y ubicuas y ACM Mobicom ’24: Actas de la 30ª Conferencia Internacional Anual sobre Computación y Redes Móviles.

Más información: Haozhe Zhou et al, filtrado del habla en el dispositivo para el reconocimiento de actividad acústica que preservan la privacidad, Actas de la 30ª Conferencia Internacional Anual sobre Computación Móvil y Redes (2024). Doi: 10.1145/3636534.3698865

Sudershan Boovaraghavan et al, Kirigami: filtrado ligero del habla para el reconocimiento de actividades que preservan la privacidad utilizando audio, procedimientos de ACM en tecnologías interactivas, móviles, portátiles y ubicuas (2024). Doi: 10.1145/3643502

Proporcionado por la Universidad Carnegie Mellon

Cita: Protección de la privacidad de audio: tecnología de filtración de voz equilibra la privacidad y la utilidad en dispositivos inteligentes (2025, 21 de abril) Recuperado el 21 de abril de 2025 de https://techxplore.com/news/2025-04-audio-privacy-spechiltering-technology.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Back to top button