来自俄罗斯的科技巨头Yandex日前向全球AI社区开源了其自主研发的YaFSDP工具,这是业界目前最高效的大型语言模型(LLM)训练优化方法。与行业内广泛使用的FSDP技术相比,YaFSDP最高可将LLM训练速度提升26%,有望为AI开发者和企业节省大量GPU资源。
YaFSDP(Yandex Full Sharded Data Parallel)是Yandex在FSDP基础上的增强版本,专注于优化GPU通信效率和内存使用,消除了LLM训练过程中的瓶颈。在预训练、对齐和微调等通信密集型任务中,YaFSDP展现出卓越的性能提升,尤其在训练参数规模达到300亿至700亿时表现最为出色。
图源备注:图片由AI生成,图片授权服务商Midjourney
Yandex高级开发专家、YaFSDP团队成员Mikhail Khruschev表示:"YaFSDP最适合基于LLaMA架构的广泛使用开源模型。我们仍在持续优化,扩展其在不同模型架构和参数大小上的多功能性,以期在更广泛的场景中提升训练效率。"
据估算,以训练一个含700亿参数模型为例,采用YaFSDP可节省约150台GPU的资源,相当于每月节省50万至150万美元的算力成本。这一成本节约有望使自主LLM训练对中小企业和个人开发者更加可行。
与此同时,Yandex还承诺将继续为全球AI社区的发展贡献自身力量,YaFSDP开源即是贯彻这一承诺的体现。此前,该公司已对外分享过多个备受推崇的开源AI工具,如CatBoost高性能梯度提升库、AQLM极限模型压缩算法和Petals模型训练简化库等。
业内分析人士指出,随着LLM规模的不断扩大,训练效率的提升将成为人工智能发展的关键。YaFSDP等技术突破有望帮助AI社区更快地推进大模型研究,挖掘其在自然语言处理、计算机视觉等领域的应用前景。