No ponto de encontro entre biociências e ciência da computação, o AlphaFold3, desde seu lançamento, tem sido uma superestrela, atraindo a atenção de inúmeros pesquisadores. Infelizmente, o Google DeepMind apenas forneceu um artigo científico, sem disponibilizar nenhum código ou pesos do modelo, como um bolo delicioso que só podemos admirar de fora, sem poder saborear. Diante dessa abordagem "fechada", muitas equipes se apressaram em reproduzir o trabalho.

Nesse ambiente de intensa atividade, uma startup chamada Ligo se destacou, tornando-se a primeira equipe a reproduzir o AlphaFold3, e seus três fundadores são estudantes de graduação da Universidade de Oxford. Eles alcançaram esse feito em apenas quatro meses, um presente e tanto para a comunidade científica.

QQ20240909-134914.jpg

O AlphaFold3 é considerado um marco nas biociências, especialmente na previsão da estrutura de proteínas, com um enorme potencial de aplicação. No entanto, a estratégia do DeepMind causou certa decepção, pois sua obra só está disponível para cientistas em um servidor específico, com um número limitado de chamadas diárias, parecendo antecipar interesses comerciais futuros. Mesmo assim, os pesquisadores estão ansiosos por essa conquista, pois tem o potencial de revolucionar a descoberta de medicamentos.

Enquanto muitos cientistas se sentiam frustrados, a equipe Ligo ousadamente deu o primeiro passo. Eles não apenas reproduziram o modelo AlphaFold3, mas também planejam disponibilizá-lo em código aberto, para o benefício de muitos. A equipe Ligo afirma que seu modelo atualmente pode prever estruturas de proteínas de forma eficaz, e outras funcionalidades serão adicionadas em breve.

O processo de reprodução não foi simples. A equipe converteu completamente a arquitetura do modelo do artigo do DeepMind para código PyTorch. Durante esse processo, eles descobriram alguns problemas no artigo original, como uma fórmula incorreta na função de perda, o que pode afetar o treinamento. Além disso, eles otimizaram o modelo original, como a introdução de camadas residuais para melhorar o fluxo de gradiente.

O mais emocionante é que a equipe Ligo, além de seguir a linha do modelo original, também inovou, buscando implementações mais eficientes. Eles conseguiram gerar o modelo usando apenas 8 GPUs A100 durante o treinamento, demonstrando uma eficiência impressionante.

Embora o DeepMind, por razões comerciais, tenha mantido seus resultados fechados temporariamente, a reprodução bem-sucedida da Ligo trouxe esperança e impulsionou outras equipes. Além da Ligo, a equipe OpenFold da Universidade de Columbia e o desenvolvedor independente Phil Wang também estão ativamente envolvidos nesse movimento de código aberto, criando um ecossistema de pesquisa vibrante.

Endereço do projeto: https://github.com/Ligo-Biosciences/AlphaFold3