En el campo del modelado de secuencias biológicas, los avances en el aprendizaje profundo son notables, pero la elevada demanda computacional y la dependencia de grandes conjuntos de datos preocupan a muchos investigadores. Recientemente, un equipo de investigación del Instituto Tecnológico de Massachusetts (MIT), la Universidad de Harvard y la Universidad Carnegie Mellon presentó un nuevo método de modelado de secuencias biológicas llamado Lyra. Este método no solo reduce significativamente los parámetros a solo una 120.000ª parte de los modelos tradicionales, sino que también puede entrenarse en solo dos horas utilizando dos GPU, lo que mejora enormemente la eficiencia del modelo.

image.png

La inspiración para el diseño de Lyra proviene del efecto epistático en biología (es decir, la interacción entre mutaciones dentro de una secuencia). Utiliza una arquitectura subcuadrática para comprender eficazmente la relación entre las secuencias biológicas y sus funciones. Este nuevo modelo muestra un rendimiento excepcional en más de 100 tareas biológicas, incluyendo la predicción de la aptitud de proteínas, el análisis de la función del ARN y el diseño de CRISPR, incluso alcanzando el mejor rendimiento actual (SOTA) en algunas aplicaciones clave.

image.png

image.png

En comparación con las redes neuronales convolucionales (CNN) y los modelos Transformer tradicionales, Lyra aumenta la velocidad de inferencia en 64,18 veces, al tiempo que reduce drásticamente la demanda de parámetros. Esto se debe a su innovadora estructura de modelo híbrido. Lyra combina modelos de espacio de estados (SSM) y convoluciones con puertas proyectadas (PGC) para capturar las dependencias locales y globales en las secuencias biológicas. Los SSM modelan las relaciones globales de manera eficiente mediante la transformada rápida de Fourier (FFT), mientras que los PGC se centran en extraer características locales. La combinación de ambos permite a Lyra lograr un buen equilibrio entre eficiencia computacional e interpretabilidad.

La alta eficiencia de Lyra no solo puede impulsar el progreso de la investigación biológica básica, sino que también puede desempeñar un papel importante en aplicaciones prácticas como el desarrollo de tratamientos, la monitorización de patógenos y la biofabricación. El equipo de investigación espera que, gracias a Lyra, más investigadores puedan realizar modelos complejos de secuencias biológicas con recursos limitados, acelerando así la exploración de las ciencias biológicas.