谷歌DeepMind推出SCoRe：大型语言模型自我纠正新技术

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年9月26号 15:04

267

谷歌DeepMind研究团队最近取得重大突破，开发出名为SCoRe（Self-Correction through Reinforcement Learning，通过强化学习进行自我纠正）的创新技术。这一技术旨在解决大型语言模型(LLM)难以自我纠正的长期挑战，无需依赖多个模型或外部检查即可识别和修复错误。

SCoRe技术的核心在于其两阶段方法。第一阶段优化模型初始化，使其能在第二次尝试时生成修正，同时保持初始响应与基础模型的相似性。第二阶段采用多阶段强化学习，教导模型如何改进第一和第二个答案。这种方法的独特之处在于它仅使用自生成的训练数据，模型通过解决问题并尝试改进解决方案来创建自己的示例。

在实际测试中，SCoRe展现出显著的性能提升。使用Google的Gemini1.0Pro和1.5Flash模型进行的测试显示，在MATH基准测试的数学推理任务中，自我纠正能力提高了15.6个百分点。在HumanEval的代码生成任务中，性能提升了9.1个百分点。这些结果表明，SCoRe在提高AI模型自我修正能力方面取得了实质性进展。

研究人员强调，SCoRe是首个实现有意义的积极内在自我纠正的方法，使模型能够在没有外部反馈的情况下改进答案。然而，当前版本的SCoRe仅进行一轮自我纠正训练，未来的研究可能会探索多个纠正步骤的可能性。

DeepMind团队的这项研究揭示了一个重要洞见:教授自我纠正等元策略需要超越标准的语言模型训练方法。多阶段强化学习为AI领域开辟了新的可能性，有望推动更智能、更可靠的AI系统的发展。

这一突破性技术不仅展示了AI自我完善的潜力，也为解决大型语言模型的可靠性和准确性问题提供了新的思路，可能对未来AI应用的发展产生深远影响。

Freepik 率先推出 Veo 2，开启 AI 视频生成新篇章

北京时间，2025 年 2 月 21 日：知名创意平台 Freepik 宣布，其已正式在其平台上推出 Google DeepMind 研发的最新 AI 视频生成模型 Veo 2。这一举措不仅标志着 Freepik 成为全球首家整合 Veo 2 的平台，更打破了地域限制，让非美国居民也能使用这一尖端技术。据 Freepik 官方消息，Veo 2 拥有无与伦比的真实感、精准度和流畅的动画效果，被认为是目前最先进的 AI 视频生成模型。此次与 Google 的合作，使 Freepik 在 AI 创意工具领域再次走在前沿。此前，Veo 2 的使用主要局限于特定地区，而 Freepik 的这一步

深推理模型崛起！Together AI融资3.05亿美元助推GPU需求

在 AI 行业，Together AI 最近宣布完成了一轮3.05亿美元的 B 轮融资，这一消息引起了广泛关注。该公司的崛起与其新推出的深度理模型 DeepSeek-R1密切相关。与最初的担忧相反，许行业专家认为，深度推理的进步并没有降低对基础设施的需求，反而在不断提升这一需求。图源备注：图片由AI生成，图片授权服务商Midjourney自2023年成立以来，Together AI 旨在简化企业对开源大型语言模型（LLM）的使用。随着时间的推移，该公司逐步扩展其平台，提供了一个名为 “Together 平台” 的解决方案，支持在虚

谷歌DeepMind高管：AI 应助力人类能力，而非取代

在近期于班加罗尔举办的 “投资卡纳塔克2025” 会议上，众多科技行业的领导者聚集一堂，探讨人工智能在印度的变革潜力及其影响。谷歌DeepMind的高级董事马尼什・古普塔（Manish Gupta）在会上发表了重要讲话，强调在推动技术创新的同时，应建立相应的规章制度，以确保负责任的发展。图源备注：图片由AI生成，图片授权服务商Midjourney古普塔指出，随着印度在构建基础性人工智能模型方面取得显著进展，大家都在关注人工智能对就业市场的影响。他表示，科技行业的责任在于开发可以增

AI大语言模型幻觉排行榜：Gemini 2.0 Flash幻觉最低

近日，Vectara 发布了一份名为 “幻觉排行榜” 的报告，比较了不同大型语言模型（LLM）在总结短文档时产生幻觉的表现。这份排行榜利用了 Vectara 的 Hughes 幻觉评估模型(HHEM-2.1)，该模型定期更新，旨在评估这些模型在摘要中引入虚假信息的频率。根据最新数据，报告指出了一系列流行模型的幻觉率、事实一致性率、应答率以及平均摘要长度等关键指标。在最新的排行榜中，谷歌的 Gemini2.0系列表现出色，尤其是 Gemini-2.0-Flash-001，以0.7% 的低幻觉率位居榜首，显示出其在处理文档时几乎没有引

AI新闻资讯

谷歌DeepMind推出SCoRe：大型语言模型自我纠正新技术

AIbase基地

相关AI新闻推荐

Freepik 率先推出 Veo 2，开启 AI 视频生成新篇章

深推理模型崛起！Together AI融资3.05亿美元助推GPU需求

​谷歌DeepMind高管：AI 应助力人类能力，而非取代

​AI大语言模型幻觉排行榜：Gemini 2.0 Flash幻觉最低

谷歌DeepMind高管：AI 应助力人类能力，而非取代

AI大语言模型幻觉排行榜：Gemini 2.0 Flash幻觉最低