Meta 研究团队推出新方法，让 AI 模型在回答前 “思考”!

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Oct 16, 2024

341

最近，Meta、加州大学伯克利分校和纽约大学的科学家们合作研发了一种新技术，名为 “思维偏好优化”（Thought Preference Optimization，简称 TPO）。这项技术的目标是提升大型语言模型(LLMs)在执行各种任务时的表现，让 AI 在回答之前更加仔细地考虑自己的反应。

研究人员表示，“思考” 应该具有广泛的实用性。比如，在创意写作任务中，AI 可以利用内在的思维过程来规划整体结构和角色发展。这种方法与以往的 “链式思考”（Chain-of-Thought，CoT）提示技术有显著不同。后者主要应用于数学和逻辑任务，而 TPO 的应用范围则更加广泛。研究人员提到 OpenAI 的新 o1模型，认为思考的过程对更广泛的任务也有帮助。

那么，TPO 是如何运作的呢?首先，模型会在回答问题之前生成一系列思维步骤。接下来，它会创造多个输出，随后由一个评估模型只评估最终的答案，而不是思维步骤本身。最后，通过对这些评估结果的偏好优化，模型得以进行训练。研究人员希望，提升回答质量能够通过改进思维过程实现，从而使模型在隐性学习中获得更有效的推理能力。

在测试中，使用 TPO 的 Llama38B 模型在一般指令遵循的基准测试中表现优于没有采用显式推理的版本。在 AlpacaEval 和 Arena-Hard 基准测试中，TPO 的胜率分别达到了52.5% 和37.3%。更令人兴奋的是，TPO 在一些通常不需要显式思考的领域，比如常识、市场营销和健康等方面也取得了进展。

不过，研究团队指出，目前的设置不适用于数学问题，因为在这些任务中，TPO 的表现实际上低于基础模型。这表明，针对高度专业化的任务，可能需要采用不同的方法。未来的研究可能会集中在思维过程的长度控制以及思考对更大模型的影响等方面。

划重点:
🌟 研究团队推出 “思维偏好优化”（TPO），旨在提升 AI 在任务执行中的思考能力。
🧠 TPO 通过让模型在回答前生成思维步骤，利用评估模型优化回答质量。
📈 测试表明，TPO 在常识和市场营销等领域表现出色，但在数学任务上表现不佳。

国产 AI 模型 Kimi K2 成功接入 Perplexity，迈出重要一步

国产Kimi K2 Thinking模型成功接入全球知名AI搜索应用Perplexity，成为唯一接入该平台的国产模型。此次与OpenAI GPT-5.1同期接入，彰显国产AI技术国际竞争力。Perplexity作为2022年成立的对话式"答案引擎"，已成长为全球估值最高AI搜索应用，革新了用户获取信息方式。

Meta首席AI科学家杨立昆拟离职创业：押注“世界模型”挑战LLM路线

Meta首席AI科学家杨立昆将离职创业，专注开发“世界模型”AI。他正寻求投资，推动其“目标驱动AI”架构商业化，此举被视为对Meta押注大语言模型的公开否定。杨立昆认为仅扩大参数无法实现人类级推理，主张通过视频、传感器等多模态路径发展AI。

杨立昆炮轰LLM：Meta AI战略走错了方向

Meta首席AI科学家杨立昆离职后首次公开表示，大公司重金投入大型语言模型是战略错误，无法实现真正智能。他指出LLM仅能统计补全文本，缺乏物理世界理解、长期推理和规划能力，注定无法达到人类智能水平。他认为下一代突破应依靠“世界模型”。