No campo da modelagem de sequências biológicas, o avanço das técnicas de aprendizado profundo é notável, mas a alta demanda computacional e a dependência de grandes conjuntos de dados preocupam muitos pesquisadores. Recentemente, uma equipe de pesquisa do MIT (Instituto de Tecnologia de Massachusetts), da Universidade de Harvard e da Universidade Carnegie Mellon lançou um novo método de modelagem de sequências biológicas chamado Lyra. Este método não apenas reduz significativamente os parâmetros para apenas 1/120.000 dos modelos tradicionais, mas também pode ser treinado em apenas duas horas usando duas GPUs, melhorando drasticamente a eficiência do modelo.
A inspiração para o design do Lyra vem do efeito epistático na biologia (ou seja, a interação entre mutações dentro de uma sequência). Ele usa uma arquitetura subquadrática para entender efetivamente a relação entre sequências biológicas e suas funções. Este novo modelo demonstrou desempenho excepcional em mais de 100 tarefas biológicas, incluindo previsão de aptidão de proteínas, análise de função de RNA e design de CRISPR, atingindo até mesmo o melhor desempenho atual (SOTA) em alguns aplicativos críticos.
Em comparação com as redes neurais convolucionais (CNNs) e os modelos Transformer tradicionais, a velocidade de inferência do Lyra é 64,18 vezes maior, ao mesmo tempo em que reduz drasticamente a necessidade de parâmetros. Isso se deve à sua estrutura inovadora de modelo híbrido. O Lyra combina modelos de espaço de estados (SSMs) e convoluções com portões de projeção (PGCs) para capturar dependências locais e globais em sequências biológicas. Os SSMs modelam relações globais de forma eficiente usando a Transformada Rápida de Fourier (FFT), enquanto os PGCs se concentram na extração de recursos locais. A combinação de ambos permite que o Lyra alcance um bom equilíbrio entre eficiência computacional e interpretabilidade.
A alta eficiência do Lyra não apenas impulsionará o progresso da pesquisa biológica básica, mas também poderá desempenhar um papel importante em aplicações práticas, como desenvolvimento de tratamentos, monitoramento de patógenos e biofabricação. A equipe de pesquisa espera que, com o Lyra, mais pesquisadores possam realizar modelagem complexa de sequências biológicas com recursos limitados, acelerando assim a exploração da biociência.