在生物科学和计算机科学的交汇点上,AlphaFold3自从发布以来,就如同一颗超级明星,吸引了无数目光。可惜的是,谷歌 DeepMind 只给了我们一篇论文,却没有提供任何代码或模型权重,像是一道美味的蛋糕,却只让大家看看外观,没法动手尝尝。面对这种 “闭门造车” 的做法,很多团队都在争先恐后地进行复现工作。
就在这热火朝天的氛围中,一家名为 Ligo 的初创公司脱颖而出,成为首个复现 AlphaFold3的团队,而这个团队的三位创始人全都是牛津大学的本科生。他们在短短四个月内就实现了这一壮举,简直是给科学界送上了一份大礼。
AlphaFold3被视为生物科学领域的里程碑,尤其在蛋白质结构预测方面,它的应用潜力巨大。然而,DeepMind 的策略让人颇感失望,他们的作品只在特定服务器上供科学家们使用,且每天调用次数有限,似乎在为未来的商业利益埋下伏笔。即便如此,研究人员们却对这一成果充满期待,因为它有可能彻底改变药物发现的游戏规则。
就在众多科学家感到挫败的时候,Ligo 团队却勇敢地迈出了第一步。他们不仅复现了 AlphaFold3的模型,还计划将其开源,让更多人受益。Ligo 团队表示,他们的模型目前可以有效预测蛋白质结构,而其他功能将在不久后跟进。
复现的过程并不简单,团队将 DeepMind 论文中的模型架构完全转化为 PyTorch 代码。在这个过程中,他们发现了一些原始论文中的问题,比如损失函数的公式错误,这可能会影响训练效果。此外,他们还对原有模型进行了优化,比如引入了残差层来改善梯度流。
令人兴奋的是,Ligo 团队在这项工作中不仅遵循了原有模型的思路,还进行了创新,尝试了更高效的实现方式。他们甚至在训练过程中只用了8个 A100GPU,便生成了相应的模型,效率之高令人瞩目。
尽管 DeepMind 因商业原因暂时将成果封闭,但 Ligo 的成功复现让人们看到了希望,也引发了更多团队的跟进。除了 Ligo,哥伦比亚大学的 OpenFold 团队和独立开发者 Phil Wang 也在积极参与这一开源运动,形成了一个生动的科研生态。
项目地址:https://github.com/Ligo-Biosciences/AlphaFold3