En el punto de encuentro entre la biociencia y la informática, AlphaFold3 se ha convertido en una superestrella desde su lanzamiento, atrayendo innumerables miradas. Lamentablemente, Google DeepMind solo nos proporcionó un artículo científico, sin código ni pesos de modelo, como un delicioso pastel que solo podemos admirar sin poder probarlo. Ante este enfoque de "hacerlo a puertas cerradas", muchos equipos se apresuran a reproducirlo.
En medio de este frenesí, una startup llamada Ligo se destaca como el primer equipo en reproducir AlphaFold3, y sus tres fundadores son estudiantes de pregrado de la Universidad de Oxford. Lograron esta hazaña en solo cuatro meses, un verdadero regalo para la comunidad científica.
AlphaFold3 se considera un hito en el campo de la biociencia, especialmente en la predicción de la estructura de proteínas, con un enorme potencial de aplicación. Sin embargo, la estrategia de DeepMind resulta decepcionante; su obra solo está disponible para los científicos en un servidor específico, con un número limitado de llamadas diarias, aparentemente preparando el terreno para futuros beneficios comerciales. A pesar de ello, los investigadores tienen grandes expectativas, ya que podría revolucionar el descubrimiento de fármacos.
Mientras muchos científicos se sentían frustrados, el equipo de Ligo dio un valiente paso adelante. No solo reprodujeron el modelo AlphaFold3, sino que planean liberarlo como código abierto para que más personas se beneficien. El equipo de Ligo afirma que su modelo actualmente puede predecir eficazmente la estructura de las proteínas, y que otras funciones se implementarán próximamente.
El proceso de reproducción no fue sencillo. El equipo tradujo completamente la arquitectura del modelo del artículo de DeepMind a código PyTorch. Durante este proceso, descubrieron algunos problemas en el artículo original, como una fórmula incorrecta de la función de pérdida, lo que podría afectar el entrenamiento. Además, optimizaron el modelo original, por ejemplo, introduciendo capas residuales para mejorar el flujo de gradiente.
Es emocionante que el equipo de Ligo no solo haya seguido el enfoque del modelo original, sino que también haya innovado, buscando una implementación más eficiente. Incluso generaron el modelo utilizando solo 8 GPUs A100 durante el entrenamiento, una eficiencia asombrosa.
Aunque DeepMind mantiene sus resultados cerrados temporalmente por razones comerciales, la exitosa reproducción de Ligo ofrece esperanza y ha impulsado a más equipos a unirse. Además de Ligo, el equipo OpenFold de la Universidad de Columbia y el desarrollador independiente Phil Wang también participan activamente en este movimiento de código abierto, creando un vibrante ecosistema de investigación.
Dirección del proyecto: https://github.com/Ligo-Biosciences/AlphaFold3