Recientemente, Arc Institute, en colaboración con NVIDIA, y junto a investigadores de la Universidad de Stanford, la Universidad de California, Berkeley y la Universidad de California, San Francisco, presentaron Evo2, el modelo de inteligencia artificial biológica más grande del mundo. Este modelo se entrenó con datos de más de 128.000 genomas, abarcando 9,3 billones de nucleótidos, alcanzando una escala comparable a los modelos de lenguaje de IA generativa más potentes.
La capacidad de aprendizaje profundo de Evo2 le permite identificar rápidamente patrones en las secuencias genéticas de diferentes organismos, eliminando la necesidad de años de investigación por parte de los científicos. El modelo puede identificar con precisión las mutaciones que causan enfermedades humanas y tiene la capacidad de diseñar nuevos genomas del tamaño comparable al de genomas bacterianos simples. El equipo de desarrollo de Evo2 anunció que publicará detalles del modelo y lanzará una interfaz de usuario amigable llamada Evo Designer el 19 de febrero de 2025. El código de Evo2 ya está disponible públicamente en el GitHub de Arc y se ha integrado en el marco BioNeMo de NVIDIA para promover el avance de la investigación científica.
En comparación con su predecesor, Evo1, Evo2 no solo amplía el alcance de los datos, sino que también incluye datos de bacterias, arqueas, virus y organismos eucariotas como humanos y plantas. Los investigadores afirman que el desarrollo de Evo2 marca un momento importante en el campo de la biología generativa, permitiendo a las máquinas "leer, escribir y pensar" en el lenguaje de los nucleótidos.
A nivel técnico, Evo2 se entrenó en la plataforma de IA NVIDIA DGX Cloud utilizando más de 2000 GPU NVIDIA H100. El modelo puede procesar secuencias genéticas de hasta 1 millón de nucleótidos a la vez, lo que le permite comprender las relaciones entre partes distantes del genoma. La nueva arquitectura de IA "StripedHyena2" permite a Evo2 procesar 30 veces más datos que Evo1.
Evo2 tiene un amplio rango de aplicaciones potenciales, mostrando un excelente rendimiento en el análisis de variaciones genéticas relacionadas con la función de proteínas y la adaptación de los organismos. En las pruebas de variantes del gen BRCA1 relacionado con el cáncer de mama, Evo2 predijo mutaciones con una precisión superior al 90%. Estos hallazgos pueden ahorrar significativamente tiempo y recursos en los laboratorios, impulsando el desarrollo de nuevos medicamentos.
Además, Evo2 puede ayudar a diseñar nuevas herramientas biológicas o tratamientos. Por ejemplo, los científicos pueden diseñar terapias génicas dirigidas a células específicas, evitando efectos secundarios. El equipo de investigación cree que en el futuro se podrán construir modelos de IA más específicos basados en Evo2, ofreciendo más posibilidades para la investigación genómica y la bioingeniería.
En cuanto a los riesgos éticos y de seguridad, los investigadores se aseguraron de que el conjunto de datos de Evo2 no incluyera patógenos dañinos para humanos u otros organismos complejos, desarrollando e implementando esta tecnología de manera responsable.
Más información sobre Evo2: https://arcinstitute.org/news/blog/evo2
Puntos clave:
🌱 Evo2 es el modelo de IA biológica más grande del mundo, entrenado con datos de 128.000 genomas.
🔍 Este modelo puede identificar rápidamente mutaciones causantes de enfermedades y diseñar nuevos genomas, mejorando significativamente la eficiencia de la investigación.
💡 Evo2 ofrece nuevas posibilidades para la bioingeniería y el diseño de terapias génicas futuras.