日前,Arc Institute 与 NVIDIA 合作,联合斯坦福大学、加州大学伯克利分校和加州大学旧金山分校的研究人员,共同推出了全球最大的生物学人工智能模型 ——Evo2。该模型以超过128,000个基因组的数据为基础,训练了9.3万亿个核苷酸,使其规模与最强大的生成性 AI 语言模型相媲美。

QQ_1740017835097.png

Evo2的深度学习能力使其能够快速识别不同生物体基因序列中的模式,研究人员无需耗费数年时间。该模型能够准确识别引起人类疾病的突变,并有能力设计出与简单细菌基因组长度相当的新基因组。Evo2的开发团队表示,将于2025年2月19日发布该模型的详细信息,并推出名为 Evo Designer 的用户友好界面。Evo2的代码已在 Arc 的 GitHub 上公开,并已集成至 NVIDIA 的 BioNeMo 框架,以促进科学研究的进展。

相较于前代模型 Evo1,Evo2不仅扩大了数据范围,涵盖了细菌、古菌、病毒及人类、植物等真核生物的数据。研究人员表示,Evo2的开发标志着生成生物学领域的一个重要时刻,它使机器能够 “读、写、思考” 核苷酸的语言。

在技术层面,Evo2在 NVIDIA DGX Cloud AI 平台上训练,使用了2000多块 NVIDIA H100GPU,模型能够一次处理高达100万个核苷酸的基因序列,从而理解基因组的远程部分之间的关系。新的 AI 架构 “StripedHyena2” 使 Evo2能够处理比 Evo1多30倍的数据。

Evo2的应用前景广泛,例如在分析与蛋白质功能和生物体适应性相关的遗传变化方面表现出色。在乳腺癌相关基因 BRCA1的变体测试中,Evo2预测突变的准确率超过90%。这些发现能够大幅节省实验室时间和资金,推动新药的研发。

此外,Evo2还可以帮助设计新的生物工具或治疗方案。例如,科学家可以设计针对特定细胞的基因疗法,避免副作用。研究团队认为,未来可以在 Evo2的基础上构建更具体的 AI 模型,为基因组研究和生物工程提供更多可能性。

在伦理和安全风险方面,研究人员确保 Evo2的数据集不包含对人类和其他复杂生物有害的病原体,以负责任地开发和部署这一技术。

Evo2详细介绍:https://arcinstitute.org/news/blog/evo2

划重点:

🌱 Evo2是全球最大的生物学 AI 模型,训练数据涵盖128,000个基因组。  

🔍 该模型能够快速识别疾病突变并设计新基因组,大幅提高科研效率。  

💡 Evo2为未来的生物工程和基因疗法设计提供了新的可能性。