El enfoque de modelo pequeño podría ser más efectivo que las LLM

Crédito: dominio público Unsplash/CC0
Los modelos de lenguaje pequeño son más confiables y seguros que sus grandes contrapartes, principalmente porque extraen información de un conjunto de datos circunscrito. Espere ver más chatbots ejecutándose en estas alternativas adelgazadas en los próximos meses.
Después del despliegue generalizado del modelo de lenguaje grande (LLM) de Openai a fines de 2022, muchas otras grandes compañías tecnológicas hicieron lo mismo, a un ritmo que demostró que no estaban muy lejos y que habían estado trabajando durante años para desarrollar sus propios programas generativos de inteligencia artificial (Genai) utilizando lenguaje natural.
Lo sorprendente de los diversos programas de Genai disponibles hoy en día es cuán similares son realmente. Básicamente, todos funcionan de la misma manera: un modelo que contiene miles de millones de parámetros es capacitada profunda en enormes conjuntos de datos formados por contenido disponible en Internet.
Una vez entrenados, los modelos a su vez generan contenido, en forma de textos, imágenes, sonidos y videos, al usar estadísticas para predecir qué cadena de palabras, píxeles o sonidos es la respuesta más probable a un aviso.
“Pero este método viene con riesgos”, dice Nicolas Flammarion, quien dirige la teoría del laboratorio de aprendizaje automático de EPFL. “Una gran parte del contenido disponible en línea es tóxico, peligroso o simplemente incorrecto. Es por eso que los desarrolladores tienen que supervisar y refinar sus modelos y agregar varios filtros”.
Cómo evitar que se ahoguen en la información
La forma en que se encuentran las cosas actualmente, LLMS ha creado una situación subóptima en la que las máquinas alojadas en vastas centros de datos se crujen a través de miles de millones de bytes de datos, que comprometen grandes cantidades de energía en el proceso, para encontrar la pequeña fracción de datos relevantes para un indicador dado. Es como si encontrara la respuesta a una pregunta, tenía que pasar por todos los libros en la Biblioteca del Congreso Página por página hasta que encontró la respuesta correcta.
Los investigadores ahora están explorando formas de aprovechar el poder de los LLM al tiempo que los hacen más eficientes, seguros y económicos de operar. “Un método es limitar las fuentes de datos que se alimentan al modelo”, dice Martin Rajman, profesor e investigador de EPFL sobre IA. “El resultado serán modelos de idiomas que son altamente efectivos para una aplicación determinada y que no intentan tener las respuestas a todo”.
Aquí es donde entran los modelos de lenguaje pequeño (SLMS). Tales modelos pueden ser pequeños de varias maneras, pero, en este contexto, el tamaño generalmente se refiere al conjunto de datos del que recurren. El término técnico para esto es la generación de recuperación de la recuperación (RAG). Meditron de EPFL proporciona un ejemplo de cómo esto se puede aplicar en la práctica: sus modelos se basan exclusivamente en conjuntos de datos médicos confiables y verificados.
La ventaja de este enfoque es que evita la propagación de información incorrecta. El truco es implementar los conjuntos de datos limitados con chatbots entrenados en grandes modelos. De esa manera, el chatbot puede leer la información y vincular diferentes bits para producir respuestas útiles.
Varios grupos de investigación de EPFL están explorando el potencial de SLM. Un proyecto es Meditron, mientras que otra es una prueba piloto en marcha basada en Polylex, el repositorio en línea de reglas y políticas de EPFL. Otros dos proyectos están buscando mejorar cómo se transcriben las grabaciones de clase para que puedan indexarse de manera más confiable y racionalizar algunos de los procesos administrativos de la escuela.
Más barato de usar
Debido a que los SLM dependen de conjuntos de datos más pequeños, no necesitan grandes cantidades de potencia de procesamiento para ejecutar, algunos de ellos incluso pueden funcionar en un teléfono inteligente. “Otra ventaja importante de SLMS es que funcionan en un sistema cerrado, lo que significa que la información que los usuarios ingresan en un aviso están protegidos”, dice Rajman.
“Eso es diferente a ChatGPT, donde si le pide que transcriba una reunión y escriba minutos, por ejemplo, algo que el modelo puede hacer bastante bien, no sabe cómo se utilizará la información. Se almacena en servidores desconocidos, aunque parte de la información podría ser confidencial o incluir datos personales”.
Los SLM tienen todas las capacidades de chatbot de modelos grandes y vienen con considerablemente menos riesgos. Es por eso que las empresas se están interesando cada vez más en la tecnología, ya sea para sus necesidades internas o por su uso con sus clientes. Los chatbots diseñados para aplicaciones específicas pueden ser muy útiles y extremadamente efectivos, y esto ha llevado a las compañías tecnológicas de todo el mundo a apresurar su versión al mercado.
2023 puede haber sido el año en que LLMS, con todas sus fortalezas y debilidades, en los titulares, pero 2025 podría ser el año en que sus contrapartes más pequeñas, personalizadas y totalmente confiables roban el espectáculo.
Meditron, el ejemplo líder de la industria de EPFL
Lo primero que la mayoría de nosotros hacemos cuando tenemos una erupción cutánea, dolor de pantorrilla inexplicable o se nos prescribe un nuevo medicamento, por ejemplo, es conectarse en línea. Algunas personas realizan una búsqueda estándar en Internet, mientras que otras prefieren conversar con un programa generativo de inteligencia artificial (Genai), buscando explicaciones tranquilizadoras o alimentando sus tendencias hipocondríacas. Pero los diagnósticos presentados por modelos de lenguaje grande generalistas, como los utilizados por ChatGPT y Claude, se extraen de fuentes oscuras que contienen todo tipo de datos, lo que plantea preguntas sobre su confiabilidad.
La solución es desarrollar modelos más pequeños que sean mejor dirigidos, más eficientes y alimentados con datos verificados. Eso es precisamente lo que los investigadores de la EPFL y la Facultad de Medicina de Yale están haciendo para la industria del cuidado de la salud: han desarrollado un programa llamado Meditron que actualmente es el modelo de lenguaje abierto de código abierto mejor rendimiento del mundo para la medicina.
Se introdujo hace poco más de un año y, cuando se probó en los exámenes médicos dados en los EE. UU., Respondió con mayor precisión que los humanos en promedio y se les ocurrió respuestas razonables a varias preguntas. Si bien Meditron no está destinado a reemplazar a los médicos, puede ayudarlos a tomar decisiones y establecer diagnósticos. Un humano siempre tendrá la última palabra.
El programa se basa en el modelo de lenguaje grande de acceso abierto de Meta Meta. Lo que distingue a Meditron es que ha sido capacitado en datos médicos cuidadosamente seleccionados. Estos incluyen literatura revisada por pares de bases de datos de acceso abierto, como PubMed y una colección única de pautas de práctica clínica, incluidas las emitidas por el CICR y otras organizaciones internacionales, que abarcan varios países, regiones y hospitales.
“Esta base de acceso abierto es quizás el aspecto más importante de Meditron”, dice la profesora Annie Hartley del Laboratorio de Tecnologías inteligentes de salud global y respuesta humanitaria (Light), organizada conjuntamente por EPFL y Yale. Se puede descargar a un teléfono inteligente y operar en áreas remotas donde hay poco o ningún acceso a Internet.
A diferencia de las cajas negras desarrolladas por las grandes empresas, Meditron es transparente, y mejora cada vez que se usa. “El programa está en desarrollo constante”, dice Hartley. “Una de sus fortalezas es que incluye datos de regiones que a menudo están subrepresentadas”.
Para asegurarse de que el programa se pueda utilizar lo más ampliamente posible y refleja con precisión las afecciones del mundo real, sus desarrolladores lanzaron una iniciativa por la cual se pidió a los profesionales médicos de todo el mundo que evaluaran el modelo en entornos clínicos reales y le hicieran preguntas desafiantes.
“El hecho de que estos profesionales ofrecieran su tiempo como voluntario en nuestra comunidad de código abierto para validar de forma independiente Meditron es un reconocimiento de su valor”, dice Hartley. Martin Jaggi, jefe del laboratorio de aprendizaje automático y optimización de EPFL, agrega: “Nada de eso hubiera sido posible con los modelos cerrados desarrollados por grandes compañías tecnológicas”.
Otro paso hacia la medicina personalizada
Otros investigadores de EPFL están buscando mejorar la calidad de los datos alimentados a los modelos de idiomas. Emmanuel Abbé, quien posee el presidente de Mathematical Data Science en EPFL, lleva a cabo uno de esos proyectos con el Hospital de la Universidad de Lausana (CHUV) para ayudar a prevenir los ataques cardíacos.
El objetivo es desarrollar un sistema de IA que pueda analizar imágenes de un angiograma, una visualización del corazón y los vasos sanguíneos, y compararlas con aquellos en una base de datos para estimar el riesgo de paro cardíaco de un paciente. Abbé y su grupo de investigación planean realizar un gran estudio de cohorte en Suiza que involucra al menos a 1,000 participantes en los próximos tres años para recopilar datos para capacitar a su modelo.
Dichas aplicaciones también podrían acercarnos un paso más a la medicina personalizada. “Veo un enorme potencial en la combinación de los resultados de estos modelos con el historial médico de los pacientes y los datos recopilados por los relojes inteligentes y otras aplicaciones relacionadas con la salud”, dice Olivier Crochat, director ejecutivo del Centro de Trust Digital de EPFL. “Pero tenemos que asegurarnos de que existan sistemas robustos para proteger estos datos altamente confidenciales y asegurarnos de que se usan ética y de manera justa”.
Proporcionado por Ecole Polytechnique Federal de Lausanne
Cita: el enfoque de modelo pequeño podría ser más efectivo que las LLM (2025, 7 de abril) recuperado el 7 de abril de 2025 de https://techxplore.com/news/2025-04-small-prochet-eficective-llms.html
Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.