Tecnología

Ampliar el uso y el alcance de los modelos de difusión de IA

La Biblioteca Geisel de UC San Diego que surge del proceso de renovación. Crédito: Yian MA, HDSI

Investigadores de la Universidad de California en San Diego y otras instituciones están trabajando en una forma de hacer un tipo de inteligencia artificial (IA) llamadas modelos de difusión, un tipo de IA que puede generar contenido nuevo, como imágenes y videos, capacitando en grandes conjuntos de datos, más eficientes y ampliamente aplicables.

Actualmente, los modelos de difusión funcionan haciendo pequeños cambios incrementales a los datos de entrada, lo que permite que el modelo aprenda patrones y relaciones complejos, un proceso que puede ser lento y limitado en la aplicación. Entonces, Yian Ma, profesor asistente del Instituto de Ciencia de Datos Halıcıoğlu (HDSI) de UC San Diego, parte de la Escuela de Ciencias de la Escuela de Computación, Información y Datos, y sus colegas de investigación han desarrollado un nuevo enfoque que permite saltos más grandes entre los pasos, lo que hace que el proceso sea más rápido y más flexible.

En un artículo reciente titulado “Núcleo de transición inversa: un marco flexible para acelerar la inferencia de difusión”, MA e investigadores de la Universidad de Illinois Urbana-Champaign (UIUC), la Universidad de Hong Kong de Ciencia y Tecnología (HKUST), la Universidad de Hong Kong (HKU) y la investigación de Salesforce AI presentó un análisis de la versión generalizada de los modelos de difusión.

El documento fue reconocido como un documento de atención en Neurips 2024, una de las conferencias más grandes en el aprendizaje automático, y se le otorgó el mejor documento en el taller de la Conferencia Internacional de Aprendizaje Autor (ICML 2024): “Inferencia probabilística estructurada y modelado generativo”.

“Los modelos de difusión clásicos agregan incrementalmente el ruido gaussiano pequeño (una variable aleatoria normal con una pequeña amplitud) para transformar la distribución de datos hacia una distribución normal simple y estándar. Los modelos aprenden funciones para especificar los cambios incrementales y ‘DENOISE’ para transformar la variable normal estándar de regreso a uno a uno que sigue la distribución de datos”, dijo Ma.

Según MA, sin embargo, el equipo de investigación no requiere que las actualizaciones incrementales sean un ruido gaussiano pequeño. En cambio, consideran saltos más grandes entre pasos que siguen las distribuciones más allá de las normales. Estas pueden ser distribuciones de cola larga o incluso distribuciones generadas por algoritmos de subrutina. Usando esta técnica, los investigadores pudieron reducir el número de pasos intermediarios y acelerar el algoritmo para los modelos de difusión, lo que los hace más aplicables a varias tareas.

“Podemos ver que dicha generalización mejora la eficiencia de los modelos de difusión. Potencialmente, también podría conducir a un uso mucho más amplio de modelos de difusión, como la generación de idiomas y, lo que es más interesante, un razonamiento a largo plazo y la toma de decisiones”, dijo Ma.

Además de MA, el equipo de investigación incluye a Xupeng Huang, actualmente un estudiante visitante en HDSI; Tong Zhang, de UIUC; DiFan Zou y Yi Zhang de HKU; y Hanze Dong de Salesforce.

“Lo más emocionante de este trabajo es que puede hacer uso de casi cualquier paso de transición intermediario, que pueda acelerar el algoritmo y hacer que el algoritmo sea más ampliamente aplicable a varias tareas aguas abajo”, dijo Ma. “Esperaría que este trabajo se aplique a la generación de texto y a la generación multimodal, razonamiento a largo plazo, uso de herramientas y resolución de problemas, así como tareas de toma de decisiones para acelerar y mejorar los resultados de tales tareas”.

Más información: Documento: Kernel de transición inversa: un marco flexible para acelerar la inferencia de difusión

Proporcionado por la Universidad de California – San Diego

Cita: Expandir el uso y el alcance de los modelos de difusión de IA (2025, 3 de abril) Recuperado el 3 de abril de 2025 de https://techxplore.com/news/2025-04-scope-ai-diffusion.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Back to top button