Meta AI 的新玩意儿：让 AI 学会 “先思考，后回答”！

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年11月4号 16:42

158

Meta FAIR、加州大学伯克利分校和纽约大学的研究人员联合推出了一种全新技术，名为思维偏好优化（TPO）。这项创新旨在提升大语言模型(LLM)在处理指令时的回答质量。与传统模型只关注最终答案不同，TPO 允许模型在给出最终回答之前，先进行内部思考和反思，从而生成更准确和连贯的回答。

TPO 技术的核心是改进后的连锁思维（CoT）推理方法。这种方法在训练过程中鼓励模型 “思考一下再回答”，帮助它们在提供最终答案之前，构建更有条理的内在思维过程。传统的 CoT 提示有时会导致准确性降低，而且由于缺乏明确的思考步骤，训练起来相当棘手。而 TPO 通过让模型在不暴露中间步骤给用户的情况下，优化和简化它们的思维过程，成功克服了这些挑战。

在 TPO 的训练过程中，首先提示大语言模型生成多种思路，然后再整理出最终回答。随后，这些输出结果会被一个 “评判者” 模型进行评估，以挑选出表现最好的和最差的回答。这些评估结果被用作直接偏好优化（DPO）的 “选择” 和 “拒绝” 对，以此来不断提升模型的响应质量。

通过调整训练提示，TPO 鼓励模型在回答之前进行内部思考。这一过程引导模型优化其回答，使其更加清晰和相关。最终，评估工作由一个基于 LLM 的评判模型来完成，该模型仅对最终答案进行评分，从而独立于隐藏的思考步骤，帮助模型提升回答质量。TPO 还利用直接偏好优化，创建包含隐藏思维的优选和拒绝回答对，经过多轮训练，进一步精细化模型的内部过程。

在对 AlpacaEval 和 Arena-Hard 的基准测试中，TPO 方法的表现优于传统的响应基线，并且比 “思维提示” 的 Llama-3-8B-Instruct 模型更为出色。这一方法的迭代训练优化了思维生成能力，使其最终超越了多个基线模型。值得一提的是，TPO 不仅适用于逻辑和数学任务，还在创意领域如市场营销和健康等指令跟随任务中大展拳脚。

AI 和机器人专家 Karan Verma 在社交平台 X 上分享了他对 “思考型 LLM” 这一概念的看法，表示对此感到非常兴奋，期待这项创新在医疗应用中的潜力，能为患者带来更好的治疗效果。

这种结构化的内在思维过程，使得模型能够更有效地处理复杂的指令，进一步拓展其在需要多层次推理和细致理解的领域的应用，而无需人类提供特定的思维数据。这项研究表明，TPO 有可能使大语言模型在多样化的上下文中更加灵活和高效，适用于那些对响应生成的灵活性和深度有较高要求的领域。

阿里国际开源Ovis2系列多模态大语言模型共有六个版本

Ovis2 是阿里巴巴国际化团队提出的Ovis系列模型的最新版本。与前序1. 6 版本相比，Ovis2 在数据构造和训练方法上都有显著改进。它不仅强化了小规模模型的能力密度，还通过指令微调和偏好学习大幅提升了思维链（CoT）推理能力。此外，Ovis2 引入了视频和多图像处理能力，并增强了多语言能力和复杂场景下的OCR能力，显著提升了模型的实用性。

AI大语言模型幻觉排行榜：Gemini 2.0 Flash幻觉最低

近日，Vectara 发布了一份名为 “幻觉排行榜” 的报告，比较了不同大型语言模型（LLM）在总结短文档时产生幻觉的表现。这份排行榜利用了 Vectara 的 Hughes 幻觉评估模型(HHEM-2.1)，该模型定期更新，旨在评估这些模型在摘要中引入虚假信息的频率。根据最新数据，报告指出了一系列流行模型的幻觉率、事实一致性率、应答率以及平均摘要长度等关键指标。在最新的排行榜中，谷歌的 Gemini2.0系列表现出色，尤其是 Gemini-2.0-Flash-001，以0.7% 的低幻觉率位居榜首，显示出其在处理文档时几乎没有引

Grok-3正式发布:马斯克"钞能力"催生AI新王座挑战者

埃隆·马斯克旗下xAI公司正式发布Grok系列第三代大语言模型，在AI领域掀起新一轮技术海啸。这款被开发者称为"当下地表最强"的模型，或将重塑全球AI竞争格局。据官方披露，Grok-3在多项核心指标上已超越现有主流模型，测试用户反馈其实际表现达到"o3-full"基准水平。但这份技术突破背后是惊人的算力投入——其训练消耗的算力资源达到中国深度求索公司DeepSeek V3模型的263倍，如此悬殊的资源差距令国内研发团队直言"望洋兴叹"。本次发布呈现出完整的产品生态:- **推理专用版本**:针对企业

AI新闻资讯

Meta AI 的新玩意儿：让 AI 学会 “先思考，后回答”！

AIbase基地

相关AI新闻推荐

阿里国际开源Ovis2系列多模态大语言模型共有六个版本

AI大语言模型幻觉排行榜：Gemini 2.0 Flash幻觉最低

昆仑万维旗下Opera接入DeepSeek R1模型支持本地个性化部署

Grok-3正式发布:马斯克"钞能力"催生AI新王座挑战者

AI新闻资讯

Meta AI 的新玩意儿：让 AI 学会 “先思考，后回答”！

AIbase基地

相关AI新闻推荐

阿里国际开源Ovis2系列多模态大语言模型 共有六个版本

​AI大语言模型幻觉排行榜：Gemini 2.0 Flash幻觉最低

昆仑万维旗下Opera接入DeepSeek R1模型 支持本地个性化部署

Grok-3正式发布:马斯克"钞能力"催生AI新王座挑战者

阿里国际开源Ovis2系列多模态大语言模型共有六个版本

AI大语言模型幻觉排行榜：Gemini 2.0 Flash幻觉最低

昆仑万维旗下Opera接入DeepSeek R1模型支持本地个性化部署