Tecnología

El método AI acelera la recuperación de datos en 3,200 veces

Datos utilizados para experimentos de ADN. Crédito: Nature Machine Intelligence (2025). Doi: 10.1038/s42256-025-01003-z

Investigadores de la Facultad de Informática de Henry y Marilyn Taub han desarrollado un método basado en IA que acelera la recuperación de datos basada en ADN en tres órdenes de magnitud al tiempo que mejora significativamente la precisión. El equipo de investigación incluyó a Ph.D. Estudiante Omer Sabary, Dr. Daniella Bar-Lev, Dr. Itai Orr, Prof. Eitan Yaakobi y Prof. Tuvi Etzion.

La investigación se publica en la revista Nature Machine Intelligence.

El almacenamiento de datos de ADN es un campo emergente que aprovecha el ADN como una plataforma para almacenar información. El ADN ofrece ventajas significativas como medio de almacenamiento, que incluye:

Preservación a largo plazo: en 2013, los investigadores en Dinamarca extrajeron con éxito el ADN de un hueso de caballos que data de 700,000 años. En 2021, un equipo internacional recuperó el ADN de los mamuts que vivieron hace más de un millón de años. Por el contrario, los discos magnéticos utilizados en los centros de datos tienen una vida útil medida en años o, en el mejor de los casos, unas pocas décadas. Esto destaca el potencial de ADN para el almacenamiento a largo plazo. Energía y eficiencia rentable: la “nube” que impulsa la mayoría de los servicios informáticos actuales se basan en centros de datos que consumen aproximadamente el 3% de la electricidad global y emiten alrededor del 2% de las emisiones totales de carbono. Con el crecimiento exponencial de los datos, se espera que el impacto ambiental de las tecnologías existentes aumente significativamente. Densidad de datos inigualable: el almacenamiento de ADN ofrece una densidad de datos hasta 100 millones de veces mayor que el almacenamiento digital tradicional. Esto significa que un volumen que actualmente tiene un megabyte podría almacenar teóricamente hasta 100 terabytes usando ADN.

El ADN es una molécula compuesta por una secuencia de compuestos orgánicos llamados nucleótidos. Estos nucleótidos se clasifican en cuatro tipos, representados por las letras A, C, G y T. A diferencia de la informática tradicional, donde los datos están codificados utilizando solo dos dígitos (0 y 1), el almacenamiento de ADN se basa en secuencias de cuatro letras, aumentando drásticamente el número de combinaciones posibles.

Para escribir datos (almacenar) en esta tecnología, se requiere síntesis de ADN, creando moléculas de ADN basadas en las secuencias que codifican la información. Para leer los datos almacenados, es necesaria la secuenciación de ADN.

Tubos de ensayo que contienen ADN que codifica la información. Crédito: Rami Shlush

Desafíos en el almacenamiento de datos de ADN

El desarrollo de la tecnología de almacenamiento basada en ADN presenta varios desafíos tecnológicos:

Tanto la síntesis como la secuenciación son procesos largos y propensos a errores, introduciendo la eliminación, la inserción y los errores de sustitución debido a las limitaciones del proceso de síntesis, se producen múltiples copias de cada molécula de ADN que codifica los datos. Estas copias se almacenan juntas, desordenadas, en un contenedor de almacenamiento durante la secuenciación, se recuperan muchas copias erróneas de estas moléculas, que contiene los errores, mientras que algunos desaparecen por completo

DNAformer: recuperación de datos con IA

La investigación actual presenta una solución computacional integral para recuperar y corregir errores en sistemas de almacenamiento basados ​​en ADN complejos. Utilizando algoritmos avanzados y técnicas de codificación, los investigadores han demostrado que su solución reduce la recuperación de datos y el tiempo de lectura de varios días a solo 10 minutos.

El método desarrollado por Technion, DNAformer, se basa en un modelo de transformador entrenado en datos simulados (generados usando un simulador, que también se desarrolló en Technion) para reconstruir secuencias de ADN precisas de copias erróneas. El método también incluye un código de corrección de errores personalizado adaptado para el ADN, lo que garantiza una sólida integridad de datos.

Además, un mecanismo de margen de seguridad adicional detecta secuencias de ADN particularmente ruidosas (señales o errores no deseados que ocurren durante el proceso de secuenciación, que puede interferir con la interpretación precisa de los datos) y aplica potentes herramientas algorítmicas para manejarlos de manera eficiente. Al final del proceso, los datos se convierten en información digital.

El nuevo método permite la lectura de 100 megabytes de datos a una velocidad 3,200 veces más rápida que el método existente más preciso, sin pérdida de precisión. En comparación con los métodos rápidos previamente conocidos, el DNAformer también mejora la precisión en hasta un 40%, al tiempo que reduce significativamente el tiempo de procesamiento. Esto se demostró en un conjunto de datos de 3.1 megabytes, que incluía:

A Color Still Image Un clip de audio de 24 segundos de las palabras del astronauta Neil Armstrong on the Moon Un texto escrito que discute las ventajas de ADN como un método prometedor de almacenamiento de datos datos aleatorios para ilustrar la aplicabilidad a los datos encriptados o comprimidos

Los investigadores planean desarrollar versiones personalizadas de DNAformer adaptadas a diferentes necesidades. Hacen hincapié en que su tecnología es escalable y adaptable, lo que significa que puede optimizarse para aplicaciones de almacenamiento de datos a gran escala, satisfacer las demandas del mercado y los futuros avances de síntesis de ADN y secuenciación.

Más información: Daniella Bar-Lev et al, almacenamiento escalable y robusto basado en ADN a través de la teoría de la codificación y el aprendizaje profundo, Nature Machine Intelligence (2025). Doi: 10.1038/s42256-025-01003-z

Proporcionado por Technion – Instituto de Tecnología de Israel

Cita: Almacenamiento de datos de ADN: el método AI acelera la recuperación de datos en 3,200 veces (2025, 21 de marzo) Recuperado el 22 de marzo de 2025 de https://techxplore.com/news/2025-03-dna-storage-ai-method.html

Este documento está sujeto a derechos de autor. Además de cualquier trato justo con el propósito de estudio o investigación privada, no se puede reproducir ninguna parte sin el permiso por escrito. El contenido se proporciona solo para fines de información.

Back to top button