Entrenamiento de LLM para autodoxificar su idioma

Aurora Castro21 horas agoLast Updated: 15 abril 2025

Descripción general de SASA (muestreo autosgresivo autodisciplinado). Crédito: ARXIV (2024). Doi: 10.48550/arxiv.2410.03818

A medida que maduramos desde la infancia, nuestro vocabulario, así como las formas en que lo usamos, se crece, y nuestras experiencias se vuelven más ricas, lo que nos permite pensar, razonar e interactuar con otros con especificidad e intención. En consecuencia, nuestras elecciones de palabras evolucionan para alinearse con nuestros valores personales, ética, normas culturales y puntos de vista.

Con el tiempo, la mayoría de nosotros desarrollamos una “guía” interna que nos permite aprender contexto detrás de la conversación; También con frecuencia nos dirige a compartir información y sentimientos que son, o podrían ser dañinos o inapropiados. Resulta que los modelos de idiomas grandes (LLM), que están capacitados en conjuntos de datos públicos extensos y, por lo tanto, a menudo tienen sesgos y lenguaje tóxico horneados, puede ganar una capacidad similar para moderar su propio idioma.

Un nuevo método del MIT, el laboratorio MIT-IBM Watson AI e IBM Research, llamado muestreo autorregresivo autosegalizado (SASA), permite a LLMS desintoxicar sus propios resultados, sin sacrificar la fluidez. El trabajo se publica en el servidor ARXIV preimpresión.

A diferencia de otros métodos de desintoxicación, este algoritmo de decodificación aprende un límite entre los subespacios tóxicos/no tóxicos dentro de la representación interna de la LLM, sin alterar los parámetros del modelo, la necesidad de reentrabilizar o un modelo de recompensa externo. Luego, durante la inferencia, el algoritmo evalúa el valor de toxicidad de la frase parcialmente generada: tokens (palabras) ya generados y aceptados, junto con cada nuevo token potencial que podría ser elegido razonablemente para la proximidad al límite del clasificador. A continuación, selecciona una opción de palabra que coloca la frase en el espacio no tóxico, que finalmente ofrece una forma rápida y eficiente de generar un lenguaje menos tóxico.

“Queríamos averiguar una manera con cualquier modelo de idioma existente (que), durante el proceso de generación, la decodificación puede estar sujeta a algunos valores humanos; el ejemplo que estamos tomando es toxicidad”, dice el autor principal del estudio Ching-yun “Irene” Ko Ph.D. ’24, ex pasante graduado del MIT-IBM Watson AI Lab y un científico de investigación actual en el Centro de Investigación Thomas J. Watson de IBM en Nueva York.

Los coautores de KO incluyen a Luca Daniel, profesora del Departamento de Ingeniería Eléctrica e Informática del MIT (EECS), miembro del Laboratorio MIT-IBM Watson AI y el asesor graduado de KO; y varios miembros del laboratorio MIT-IBM Watson AI y/o la investigación de IBM: Pin-Yu Chen, Payel Das, Youssef Mroueh, Soham Dan, Georgios Kollias, Subhajit Chaudhury y Tejaswini Pedapati. El trabajo se presentará en la Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR 2025) en Singapur.

Encontrar las ‘barandillas’

Los recursos de capacitación detrás de LLM casi siempre incluyen contenido recopilado de espacios públicos como Internet y otros conjuntos de datos fácilmente disponibles. Como tal, las palabras de maldición y el acoso escolar/lenguaje desagradable son un componente, aunque parte de ellos está en el contexto de obras literarias. Luego se deduce que los LLM pueden producir innatamente, o ser engañados para generar, contenido de niveles y/o sesgados, que a menudo contiene palabras desagradables o lenguaje odioso, incluso de indocuencias.

Además, se ha encontrado que pueden aprender y amplificar el lenguaje que no es preferido o incluso perjudicial para muchas aplicaciones y tareas aguas abajo, lo que es la necesidad de estrategias de mitigación o corrección.

Hay muchas maneras de lograr una generación de lenguaje robusta que sea justa y alineada por valor. Algunos métodos utilizan reentrenamiento LLM con un conjunto de datos desinfectados, que es costoso, lleva tiempo y puede alterar el rendimiento de la LLM; Otros emplean modelos de recompensa externos de decodificación, como el muestreo o la búsqueda de haz, que tardan más en ejecutarse y requieren más memoria.

En el caso de SASA, KO, Daniel y el equipo de investigación de IBM desarrollaron un método que aprovecha la naturaleza autorregresiva de los LLM y el uso de una estrategia basada en decodificación durante la inferencia de la LLM, dirige gradualmente la generación, una ficha a la vez, de distancia de resultados desagradables o no deseados y hacia un mejor idioma.

El grupo de investigación logró esto construyendo un clasificador lineal que opera en el subespacio aprendido de la incrustación de la LLM. Cuando los LLM se entrenan, las palabras con significados similares se colocan de cerca en el espacio vectorial y más lejos de palabras diferentes; Los investigadores plantearon la hipótesis de que la incrustación de una LLM también capturaría información contextual, que podría usarse para la desintoxicación.

Los investigadores utilizaron conjuntos de datos que contenían conjuntos de un aviso (la primera mitad de una oración o pensamiento), una respuesta (la finalización de esa oración) y la anotación atribuida por humanos, como tóxica o no tóxica, preferida o no preferida, con etiquetas continuas de 0 a 1, que denotan una toxicidad creciente. Luego se aplicó un clasificador óptimo de Bayes para aprender y dibujar en sentido figurado una línea entre los subespacios binarios dentro de los incrustaciones de oraciones, representados por valores positivos (espacio no tóxico) y números negativos (espacio tóxico).

El sistema SASA luego funciona volviendo a alojar las probabilidades de muestreo del nuevo token potencial en función del valor de la misma y la distancia de la frase generada al clasificador, con el objetivo de permanecer cerca de la distribución de muestreo original.

Para ilustrar, si un usuario está generando un token potencial #12 en una oración, el LLM buscará su vocabulario completo una palabra razonable, basada en las 11 palabras que se precedieron, y usando Top-K, Top-P, filtrará y producirá aproximadamente 10 tokens para seleccionar. SASA luego evalúa cada una de esas tokens en la oración parcialmente completa por su proximidad al clasificador (es decir, el valor de los tokens 1-11, más cada token potencial 12). Se fomentan los tokens que producen oraciones en el espacio positivo, mientras que los del espacio negativo son penalizados. Además, cuanto más lejos del clasificador, más fuerte sea el impacto.

“El objetivo es cambiar el proceso de muestreo autorregresivo volviendo a alojar la probabilidad de buenas tokens. Si es probable que la siguiente token sea tóxica dado el contexto, entonces vamos a reducir la probabilidad de muestreo para que aquellos propensos sean tóxicos”, dice Ko. Los investigadores eligieron hacerlo de esta manera “porque las cosas que decimos, ya sea benignas o no, están sujetas al contexto”.

Apretando la toxicidad para la coincidencia de valor

Los investigadores evaluaron su método contra varias intervenciones de referencia con tres LLM de tamaño creciente; Todos estaban basados en transformadores y autorregresivos: GPT2-Large, Llama2-7B y Llama 3.1-8B-Instructo, con 762 millones, 7 mil millones y 8 mil millones de parámetros respectivamente. Para cada aviso, el LLM tuvo la tarea de completar la oración/frase 25 veces, y PerspectiveApi los anotó de 0 a 1, con algo más de 0.5 tóxico.

El equipo analizó dos métricas: la puntuación promedio de toxicidad máxima en las 25 generaciones para todas las indicaciones, y la tasa tóxica, que fue la probabilidad de producir al menos una frase tóxica durante 25 generaciones. También se analizaron la fluidez reducida y, por lo tanto, una mayor perplejidad. SASA se probó para completar los conjuntos de datos RealtoxicityPrompts (RPT), Bold y Attaq, que contenían indicaciones de oración en inglés naturales.

Los investigadores aumentaron la complejidad de sus ensayos para la desintoxicación por SASA, comenzando con indicaciones no tóxicas desde el conjunto de datos RPT, buscando finalizaciones de oraciones dañinas. Luego, lo intensificaron a indicaciones más desafiantes de RPT que tenían más probabilidades de producir resultados con respecto a los resultados, y también aplicaron SASA al modelo de instrucción para evaluar si su técnica podría reducir aún más las salidas no deseadas.

También utilizaron los puntos de referencia Bold y Attaq para examinar la aplicabilidad general de SASA en la desintoxicación. Con el conjunto de datos en negrita, los investigadores buscaron aún más el sesgo de género en las generaciones de idiomas e intentaron lograr una tasa tóxica equilibrada entre los géneros. Por último, el equipo analizó el tiempo de ejecución, el uso de la memoria y cómo se podría combinar SASA con el filtrado de palabras para lograr una generación de lenguaje saludable y/o útil.

“Si pensamos en cómo los seres humanos piensan y reaccionan en el mundo, vemos cosas malas, por lo que no se trata de permitir que el modelo de idioma vea solo las cosas buenas. Se trata de comprender el espectro completo, tanto bien como mal”, dice Ko, “y elegir nuestros valores cuando hablamos y actuamos”.

En general, SASA logró reducciones significativas de generación de idiomas tóxicos, que se desempeñan a la par con RAD, una técnica del modelo de recompensa externa de última generación. Sin embargo, se observó universalmente que la desintoxicación más fuerte acompañó una disminución de la fluidez. Antes de la intervención, el LLM produjo más respuestas tóxicas para las indicaciones etiquetadas femeninas que el hombre; Sin embargo, SASA también pudo reducir significativamente las respuestas dañinas, haciéndolas más igualadas. Del mismo modo, el filtrado de palabras en la parte superior de SASA hizo niveles notablemente más bajos de toxicidad, pero también obstaculizó la capacidad de la LLM para responder coherentemente.

Un gran aspecto de este trabajo es que es un problema de optimización bien definido y restringido, dice KO, lo que significa que el equilibrio entre la generación de lenguaje abierto que suena natural y la necesidad de reducir el lenguaje no deseado se puede lograr y ajustar.

Además, dice Ko, Sasa podría funcionar bien para múltiples atributos en el futuro: “Para los seres humanos, tenemos múltiples valores humanos. No queremos decir cosas tóxicas, pero también queremos ser sinceros, útiles y leales … si tuviera que ajustar un modelo para todos estos valores, requeriría más recursos computacionales y, por supuesto, entrenamiento adicional”.

Debido a la forma liviana de SASA, podría aplicarse fácilmente en estas circunstancias: “Si desea trabajar con múltiples valores, es simplemente verificar la posición de la generación en múltiples subespacios. Solo agrega sobrecarga marginal en términos del cómputo y los parámetros”, dice Ko, que conduce a un lenguaje más positivo, justo y alineado principalmente.

Más información: Ching-yun Ko et al, los modelos de lenguaje grande pueden ser fuertes autodoxificadores, ARXIV (2024). Doi: 10.48550/arxiv.2410.03818

Información en la revista: ARXIV proporcionado por el Instituto de Tecnología de Massachusetts

Esta historia se vuelve a publicar por cortesía de MIT News (web.mit.edu/NewsOffice/), un sitio popular que cubre noticias sobre la investigación del MIT, la innovación y la enseñanza.

Cita: capacitación de LLMS para autodoxificar su idioma (2025, 15 de abril) Consultado el 15 de abril de 2025 de https://techxplore.com/news/2025-04-llms-detoxify-language.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Aurora Castro21 horas agoLast Updated: 15 abril 2025