人工智能硬件初创公司Groq发布了两款开源语言模型,这两款模型在专门工具使用能力方面胜过科技巨头。新的 Llama-3-Groq-70B-Tool-Use 模型已经在伯克利函数调用排行榜(BFCL)上夺得榜首,超越了来自 OpenAI、谷歌和 Anthropic 等公司的专有产品。

Groq 的项目负责人 Rick Lamers 在一篇 X.com 的文章中宣布了这一突破。他说:“我很自豪地宣布 Llama3Groq Tool Use8B 和70B 模型。这是 Llama3的一个开源工具使用全精调版本,在 BFCL 上达到了第一名的位置,击败了所有其他模型,包括专有模型如 Claude Sonnet3.5、GPT-4Turbo、GPT-4o 和 Gemini1.5Pro。”

image.png

合成数据和道德人工智能:模型训练中的新范式

更大的70B 参数版本在 BFCL 上达到了90.76% 的总体准确率,而较小的8B 模型得分为89.06%,在总体上排名第三。这些结果表明,开源模型在特定任务中可以与甚至超越封闭源替代品的性能。

Groq 与人工智能研究公司 Glaive 合作开发了这些模型,使用了 Meta 的 Llama-3基础模型上的全精细调和直接偏好优化(DPO)。团队强调他们只使用道德生成的合成数据进行训练,解决了关于数据隐私和过拟合的常见担忧。

这些模型现在通过 Groq API 和 Hugging Face 平台提供。这种可访问性可以加速需要复杂工具使用和函数调用的领域的创新,例如自动编码、数据分析和交互式人工智能助手。

Groq 还在 Hugging Face Spaces 上推出了一个公共演示,让用户可以与模型互动并第一手测试其工具使用能力。和 Hugging Face 在2021年12月收购的 Gradio 一样,许多 Hugging Face Spaces 上的演示都是这样制作的。人工智能社区对此做出了积极回应,许多研究人员和开发人员都急于探索这些模型的能力。

划重点:

⭐ Groq 发布的开源 AI 模型在特定任务中胜过了科技巨头的专有模型

⭐ 通过使用合成数据训练,Groq 挑战了 AI 模型开发中常见的数据隐私和过拟合问题

⭐ 开源模型的推出可能改变 AI 领域的发展路径,促进更广泛的 AI 可访问性和创新生态系统的培育