An der Schnittstelle von Biowissenschaften und Informatik hat AlphaFold3 seit seiner Veröffentlichung wie ein Superstar die Aufmerksamkeit auf sich gezogen. Leider hat Google DeepMind nur eine Forschungsarbeit veröffentlicht, aber keinen Code oder Modellgewichte bereitgestellt. Es ist, als würde man einen köstlichen Kuchen präsentieren, ohne ihn zu probieren. Angesichts dieses „geschlossenen“ Vorgehens bemühen sich viele Teams um eine Reproduktion.

Inmitten dieses intensiven Treibens hat sich ein Startup namens Ligo hervorgetan und als erstes Team AlphaFold3 reproduziert. Die drei Gründer dieses Teams sind alle Studenten der Universität Oxford. Innerhalb von nur vier Monaten haben sie dieses Kunststück vollbracht – ein wahres Geschenk an die Wissenschaft.

QQ20240909-134914.jpg

AlphaFold3 gilt als Meilenstein in den Biowissenschaften, insbesondere in der Vorhersage von Proteinstrukturen, mit einem enormen Anwendungspotenzial. Die Strategie von DeepMind ist jedoch enttäuschend: Ihr Werk steht Wissenschaftlern nur auf einem bestimmten Server mit einer begrenzten Anzahl von täglichen Aufrufen zur Verfügung – ein möglicher Vorbote für zukünftige kommerzielle Interessen. Trotzdem blicken Forscher gespannt auf dieses Ergebnis, da es das Spiel der Medikamentenentwicklung revolutionieren könnte.

Während viele Wissenschaftler frustriert waren, wagte das Ligo-Team den ersten Schritt. Sie haben nicht nur das AlphaFold3-Modell reproduziert, sondern planen auch, es Open Source bereitzustellen, damit mehr Menschen davon profitieren können. Das Ligo-Team gibt an, dass ihr Modell derzeit Proteinstrukturen effektiv vorhersagen kann, wobei weitere Funktionen in Kürze folgen werden.

Der Reproduktionsprozess war nicht einfach. Das Team übertrug die Modellarchitektur aus der DeepMind-Arbeit vollständig in PyTorch-Code. Dabei entdeckten sie einige Fehler in der ursprünglichen Arbeit, wie z. B. einen falschen Formelfehler in der Verlustfunktion, der die Trainingsergebnisse beeinflussen könnte. Darüber hinaus optimierten sie das ursprüngliche Modell, z. B. durch Einführung von Restschichten zur Verbesserung des Gradientenflusses.

Erfreulicherweise hat das Ligo-Team bei dieser Arbeit nicht nur dem ursprünglichen Modell gefolgt, sondern auch Innovationen eingeführt und effizientere Implementierungsmethoden ausprobiert. Sie generierten das Modell sogar mit nur 8 A100-GPUs während des Trainings – eine bemerkenswerte Effizienz.

Obwohl DeepMind die Ergebnisse aus geschäftlichen Gründen vorerst geschlossen hält, gibt die erfolgreiche Reproduktion durch Ligo Hoffnung und regt weitere Teams zur Mitarbeit an. Neben Ligo beteiligen sich auch das OpenFold-Team der Columbia University und der unabhängige Entwickler Phil Wang aktiv an dieser Open-Source-Bewegung und schaffen so ein lebendiges Forschungsökosystem.

Projekt-Adresse: https://github.com/Ligo-Biosciences/AlphaFold3