AI 初创公司 Cognition 推出了全新的 AI 程序员 “Genie”,它的表现可谓惊人,瞬间击败了 Devin 和 GPT-4,成为全球最强的 AI 编程助手。

image.png

这款 AI 程序员在权威测试平台 SWE-Bench 上,得分高达30.08%,远远超过 Devin 的13.8% 和 Swe-agent+GPT-4的12.47%。

image.png

你可能会好奇,Genie 是怎么做到的?早在2022年12月,Genie 的联合创始人 Alistair Pullen 就在伦敦大学展示过这个项目。他希望创造出一个能像人类一样自动进行编码、调试和优化的 AI 程序。经过一年多的开发,Genie 终于进入了测试阶段,并且获得了250万美元的种子轮融资。

Alistair 提到,Genie 的成功和它的训练数据以及方法密切相关。与传统的大模型微调不同,Genie 使用了一个包含人类程序员推理过程的特殊数据集。这些数据涵盖了知识的逐步发现和基于案例的决策过程,使 Genie 在面对复杂问题时,能够展现出类似人类工程师的判断力。

此外,Genie 还采用了独特的 “自我改进机制”。最初,Genie 在高质量的数据上进行训练,达到 “完美” 状态,但在这个过程中,Genie 对自身错误的判断和改进不足。为了克服这一问题,开发者使用 Genie 生成了一些合成数据,进一步丰富了训练内容。这就好比妈妈教孩子走路,每次跌倒后都给予正确的指导。

image.png

经过多次迭代训练,Genie 的能力大幅提升,甚至能在未见过的问题上展现出创造性解决方案。功能上,Genie 支持多种开发任务,包括功能开发、BUG 修复、代码重构、代码测试等,涵盖了 JavaScript、Python、Java 等几十种编程语言。

现在,Genie 已经开放了申请试用,大家可以通过官网注册,预计在接下来的几周内会发放测试权限。

官方博客:https://cosine.sh/blog/state-of-the-art

体验地址:https://cosine.sh/register

划重点:

🌟 Genie 在 SWE-Bench 测试中得分高达30.08%,成为全球最强 AI 程序员。

🚀 采用特殊数据集和自我改进机制,使 Genie 在复杂编码中表现出色。

📝 目前已开放申请试用,未来将推出更多惊喜功能!