总部位于旧金山的AI初创公司Cosine推出了一款名为Genie的新型AI模型,专为协助软件开发人员而设计。据该公司称,Genie在基准测试中的表现远超竞争对手,展现出卓越的能力。

Cosine与OpenAI合作,使用高质量数据对GPT-4o变体进行了训练,取得了令人瞩目的基准测试成绩。公司表示,Genie成功的关键在于其“编码人类推理”的能力,这种能力可能不仅限于软件开发领域。

QQ截图20240819092111.png

Genie在SWE领域取得领先地位

Cosine的联合创始人兼首席执行官Alistair Pullen透露,Genie在SWE-Bench测试中获得了30%的成绩,这是AI模型在该领域迄今为止的最高得分。这一成绩超越了其他专注于编码的语言模型,例如亚马逊的模型(19%)和Cognition的Devin(在SWE-Bench的部分测试中为13.8%)。

Genie的架构旨在模拟人类开发人员的认知过程,它能够自主或协作地修复错误、开发新功能、重构代码,并执行各种编程任务。

通过合成数据实现自我提升

Genie的开发过程采用了一种专有流程,使用数十亿个高质量数据对非公开的GPT-40变体进行了训练和微调。Cosine在经验丰富的开发人员的帮助下,花费近一年的时间整理这些数据,数据集包含21%的JavaScript和Python、14%的TypeScript和TSX,以及3%的其他语言(包括Java、C++和Ruby)。

Genie的卓越表现部分归功于其自我改进训练。最初,该模型主要从完美、有效的代码中学习,但对自身错误的处理感到困惑。Cosine通过使用合成数据解决了这一问题:如果Genie最初提出的解决方案不正确,则向模型展示如何通过正确的结果进行改进。随着每次迭代,Genie的解决方案逐步完善,所需的修正次数也逐渐减少。

QQ截图20240819092121.png

克服技术限制

Pullen早在2022年初就看到了大型语言模型在支持人类软件开发方面的潜力。然而,当时的技术尚未达到实现Genie愿景的水平。上下文窗口的标记容量通常限制在4000个标记,这是一个主要瓶颈。如今,诸如Gemini1.5Pro等型号可以在一次提示中处理多达200万个标记。虽然Cosine尚未透露Genie的具体标记容量,但这一技术进步无疑为Genie的成功提供了坚实的基础。