Tecnología

Una frase extraña está afectando a los documentos científicos, y la rastreamos a una falla en los datos de entrenamiento de IA

Crédito: dominio público Unsplash/CC0

A principios de este año, los científicos descubrieron un término peculiar que apareció en los documentos publicados: “microscopía electrónica vegetativa”.

Esta frase, que suena técnica pero en realidad no tiene sentido, se ha convertido en un “fósil digital”, un error preservado y reforzado en sistemas de inteligencia artificial (IA) que es casi imposible de eliminar de nuestros repositorios de conocimiento.

Al igual que los fósiles biológicos atrapados en el rock, estos artefactos digitales pueden convertirse en accesorios permanentes en nuestro ecosistema de información.

El caso de la microscopía electrónica vegetativa ofrece una visión preocupante de cómo los sistemas de IA pueden perpetuar y amplificar los errores a lo largo de nuestro conocimiento colectivo.

Un escaneo malo y un error en la traducción

La microscopía electrónica vegetativa parece haberse originado a través de una notable coincidencia de errores no relacionados.

Primero, dos artículos de la década de 1950, publicados en la revista Bacteriological Reviews, fueron escaneados y digitalizados.

Sin embargo, el proceso de digitalización combinó erróneamente “vegetativo” de una columna de texto con “electrón” de otro. Como resultado, se creó el término fantasma.

Los extractos de los documentos escaneados muestran cómo las rupturas de columna de análisis incorrectamente conducidos conducen al término ‘micro vegetativo de electrones …’ que se introduce. Crédito: revisiones bacteriológicas

Décadas después, la “microscopía electrónica vegetativa” apareció en algunos artículos científicos iraníes. En 2017 y 2019, dos artículos utilizaron el término en subtítulos y resúmenes en inglés.

Esto parece deberse a un error de traducción. En Farsi, las palabras para “vegetativa” y “escaneo” difieren en un solo punto.

Captura de pantalla de Google Translate que muestra la similitud de los términos farsi para ‘vegetativo’ y ‘escaneo’. Crédito: Google Translate

Un error al aumentar

El resultado? A partir de hoy, la “microscopía electrónica vegetativa” aparece en 22 artículos, según Google Scholar. Uno fue objeto de una retracción disputada de un Springer Nature Journal, y Elsevier emitió una corrección para otra.

El término también aparece en artículos de noticias que discuten las investigaciones de integridad posteriores.

La microscopía electrónica vegetativa comenzó a aparecer con mayor frecuencia en la década de 2020. Para averiguar por qué, tuvimos que mirar dentro de los modelos de IA modernos, y cavar un poco de las vastas capas de datos en las que fueron entrenados.

Evidencia empírica de contaminación por IA

Los modelos de idiomas grandes detrás de los chatbots de IA modernos como ChatGPT están “entrenados” en grandes cantidades de texto para predecir la probable palabra siguiente en una secuencia. El contenido exacto de los datos de entrenamiento de un modelo a menudo es un secreto estrechamente protegido.

Para probar si un modelo “sabía” sobre la microscopía electrónica vegetativa, ingresamos fragmentos de los documentos originales para averiguar si el modelo los completaría con el término sin sentido o alternativas más sensatas.

Los resultados fueron reveladores. GPT-3 de OpenAI completó las frases consistentemente completadas con “microscopía electrónica vegetativa”. Modelos anteriores como GPT-2 y Bert no lo hicieron. Este patrón nos ayudó a aislar cuándo y dónde ocurrió la contaminación.

También encontramos que el error persiste en modelos posteriores, incluidos GPT-4O y Claude 3.5 de Anthrope. Esto sugiere que el término sin sentido ahora puede estar integrado permanentemente en las bases de conocimiento de IA.

Captura de pantalla de un programa de línea de comandos que muestra el término ‘microscopía electrónica vegetativa’ generado por GPT-3.5 (específicamente, el modelo GPT-3.5-Turbo-Instructo). Las 17 mejores completaciones del texto proporcionada son la “microscopía electrónica vegetativa”, y estas sugerencias son 2.2 veces más probables que la siguiente predicción más probable. Crédito: OpenAI

Al comparar lo que sabemos sobre los conjuntos de datos de capacitación de diferentes modelos, identificamos el conjunto de datos CommonCrawl de las páginas de Internet raspadas como el vector más probable donde los modelos de IA aprendieron por primera vez este término.

El problema de la escala

Encontrar errores de este tipo no es fácil. Arreglarlos puede ser casi imposible.

Una razón es la escala. El conjunto de datos CommonCrawl, por ejemplo, es de tamaño millones de gigabytes. Para la mayoría de los investigadores fuera de las grandes empresas tecnológicas, los recursos informáticos necesarios para trabajar a esta escala son inaccesibles.

Otra razón es la falta de transparencia en los modelos comerciales de IA. Operai y muchos otros desarrolladores se niegan a proporcionar detalles precisos sobre los datos de capacitación para sus modelos. Los esfuerzos de investigación para revertir la ingeniería de algunos de estos conjuntos de datos también han sido obstaculizados por los derribos de derechos de autor.

Cuando se encuentran errores, no hay una solución fácil. El filtrado simple de palabras clave podría lidiar con términos específicos como la microscopía electrónica vegetativa. Sin embargo, también eliminaría referencias legítimas (como este artículo).

Más fundamentalmente, el caso plantea una pregunta inquietante. ¿Cuántos otros términos sin sentido existen en los sistemas de IA, esperando ser descubiertos?

Implicaciones para la ciencia y la publicación

Este “fósil digital” también plantea preguntas importantes sobre la integridad del conocimiento a medida que la investigación y la escritura asistida por AI-se vuelven más comunes.

Los editores han respondido de manera inconsistente cuando se notifica los documentos, incluida la microscopía electrónica vegetativa. Algunos han retirado los documentos afectados, mientras que otros los defendieron. Elsevier intentó notablemente justificar la validez del término antes de emitir una corrección.

Todavía no sabemos si otras peculiaridades afectan a los modelos de lenguaje grande, pero es muy probable. De cualquier manera, el uso de sistemas AI ya ha creado problemas para el proceso de revisión por pares.

Por ejemplo, los observadores han notado el aumento de las “frases torturadas” utilizadas para evadir el software de integridad automatizado, como la “conciencia falsificada” en lugar de “inteligencia artificial”. Además, se han encontrado frases como “Soy un modelo de lenguaje AI” en otros documentos retraídos.

Algunas herramientas de detección automática, como el protector de papel problemático, ahora marcan la microscopía electrónica vegetativa como un signo de advertencia de posible contenido generado por IA. Sin embargo, tales enfoques solo pueden abordar los errores conocidos, no los no descubiertos.

Vivir con fósiles digitales

El aumento de la IA crea oportunidades para que los errores se integren permanentemente en nuestros sistemas de conocimiento, a través de procesos no hay controles de actores. Esto presenta desafíos para empresas tecnológicas, investigadores y editores por igual.

Las empresas tecnológicas deben ser más transparentes sobre los datos y los métodos de capacitación. Los investigadores deben encontrar nuevas formas de evaluar la información frente a las tonterías convincentes generadas por AI. Los editores científicos deben mejorar sus procesos de revisión por pares para detectar errores humanos y generados por IA.

Los fósiles digitales revelan no solo el desafío técnico de monitorear conjuntos de datos masivos, sino el desafío fundamental de mantener un conocimiento confiable en los sistemas donde los errores pueden ser perpetuantes.

Proporcionado por la conversación

Este artículo se vuelve a publicar de la conversación bajo una licencia Creative Commons. Lea el artículo original.

Cita: Una frase extraña está plagando documentos científicos, y lo remontamos a un problema técnico en datos de entrenamiento de IA (2025, 15 de abril) recuperado el 15 de abril de 2025 de https://techxplore.com/news/2025-04-weird-frase-portuing-scientificpapers.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Back to top button