Tecnología

El sistema de conocimiento automático de BAFT AI se puede reducir la pérdida de capacitación en un 98%

Crédito: prensa de educación superior

Una colaboración de investigación entre la Universidad de Shanghai Jiao Tong, la institución Shanghai Qi Zhi y Huawei Technologies ha introducido Baft, un sistema de autosava de vanguardia para la capacitación de IA que minimiza el tiempo de inactividad y optimiza la eficiencia.

Diseñado para aprovechar los momentos inactivos en los flujos de trabajo de capacitación, Baft mejora significativamente la tolerancia a las fallas al tiempo que reduce la sobrecarga computacional, estableciendo un nuevo punto de referencia de la industria para el desarrollo de modelos de IA confiable. El trabajo se publica en Frontiers of Computer Science.

Baft funciona como una función de autosave en los videojuegos, asegurando que el progreso del entrenamiento de IA esté asegurado durante breves períodos de inactividad o “burbujas”. A diferencia de los métodos de punto de control tradicionales que introducen una ralentización significativa del sistema, Baft se integra perfectamente en el proceso de entrenamiento con menos del 1% de sobrecarga adicional, salvaguardando el progreso crítico con interrupciones mínimas.

Baft aporta inteligencia y eficiencia a la capacitación del modelo de IA al reducir los desechos computacionales y mejorar la tolerancia a las fallas. Un sistema de capacitación más inteligente asegura que los modelos de IA estén aprendiendo y adaptando continuamente sin pausas o interrupciones innecesarias. Al aprovechar los momentos inactivos, Baft optimiza la asignación de recursos, lo que permite que los modelos de IA aprovechen al máximo la potencia de procesamiento disponible al tiempo que mantiene la precisión y la estabilidad.

Un proceso de capacitación confiable significa que los modelos de IA pueden recuperarse rápidamente de las fallas, reduciendo la pérdida de tiempo de entrenamiento y mejorando el rendimiento general. Los sistemas tradicionales de capacitación de IA corren el riesgo de perder un progreso significativo debido a las paradas inesperadas o los errores del sistema.

Baft mitiga este riesgo al permitir una recuperación casi instantánea, prevenir horas de trabajo perdido y hacer que la capacitación de IA sea más predecible y confiable. Los estudios muestran que Baft puede reducir las pérdidas de capacitación en un 98%, lo que lo convierte en uno de los sistemas de recuperación de IA más eficientes disponibles en la actualidad.

“Este marco marca un importante paso adelante en la capacitación de IA distribuida”, dijo el profesor Minyi Guo, investigador principal de la Universidad de Shanghai Jiao Tong. “Es una solución práctica que garantiza que los modelos de IA a gran escala sigan siendo resistentes incluso frente a fallas inesperadas del sistema”.

Beneficios clave de Baft:

Tiempo de inactividad mínimo: reduce las pérdidas potenciales de entrenamiento de IA a solo 1 a 3 iteraciones (0.6–5.5 segundos), asegurando una recuperación perfecta. Rendimiento optimizado: implementa transferencias de instantáneas durante los momentos inactivos, a diferencia de los sistemas de puntos de control tradicionales que ralentizan las operaciones hasta en un 50%. Escalable en todas las industrias: mejora la resiliencia del modelo de IA en aplicaciones como tecnología de conducción autónoma, asistentes inteligentes y redes de aprendizaje profundo a gran escala.

Con la IA desempeñando un papel cada vez más crucial en las industrias globales, la capacidad de recuperarse rápidamente de las fallas del sistema es primordial. Baft no solo reduce las interrupciones de capacitación, sino que también garantiza que las organizaciones puedan escalar las operaciones de IA de manera eficiente sin tiempo de inactividad costoso.

Más información: Runczhe Chen et al, Baft: marco tolerante a fallas consciente de burbujas para el entrenamiento DNN distribuido con paralelismo híbrido, fronteras de la informática (2024). Doi: 10.1007/s11704-023-3401-5

Proporcionado por la prensa de educación superior

Cita: el sistema de autosavas BAFT AI puede reducir las pérdidas de capacitación en un 98% (2025, 27 de marzo) recuperado el 27 de marzo de 2025 de https://techxplore.com/news/2025-03-baft-ai-autosave-losses.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Back to top button