Llama 8B 用搜索引擎打败GPT-4o？新发现颠覆了AI界的游戏规则！

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Aug 15, 2024

174

最近，一项新研究令人振奋，证明了大型语言模型（LLM）可以通过搜索功能来显著提升性能。特别是，参数量仅8亿的 Llama3.1模型经过100次搜索，竟然在 Python 代码生成的任务上与 GPT-4o 不相上下。

这个想法似乎让人联想到强化学习的先驱 Rich Sutton 在2019年的经典博文《The Bitter Lesson》。他提到，随着计算能力的提升，我们需要认识到通用方法的威力。尤其是 “搜索” 和 “学习” 这两种方法，似乎是可以持续扩展的绝佳选择。

虽然 Sutton 强调了学习的重要性，即更大的模型通常能学习到更多的知识，但我们常常忽视了搜索在推理过程中的潜力。最近，斯坦福、牛津和 DeepMind 的研究者们发现，增加推理阶段重复采样次数，可以显著提高模型在数学、推理和代码生成等领域的表现。

在受到这些研究的启发后，两位工程师决定进行实验。他们发现，使用100个小型的 Llama 模型进行搜索，可以在 Python 编程任务中超越甚至追平 GPT-4o。他们用生动的比喻形容道:“以前要一只大马才能实现某种能力，现在只需100只小鸭子就能完成同样的事情。”

为了实现更高的性能，他们利用 vLLM 库进行批量推理，并在10个 A100-40GB GPU 上运行，输出速度达到了惊人的40k tokens / 秒。作者选择了 HumanEval 这个基准测试，因为它能通过运行测试评估生成的代码，更加客观和准确。

根据报告，在零样本推理中，GPT-4o 的 pass@1成绩为90.2%。而通过上述方法，Llama3.18B 的 pass@k 分数也显著提升。重复采样数为100时，Llama 的成绩达到了90.5%;当重复采样数增加到1000时，成绩则进一步提升至95.1%，明显优于 GPT-4o。

值得一提的是，这个实验虽然不是对原研究的严格复现，但强调了使用搜索方法增强推理阶段时，较小模型也能在可预见的范围内超越大型模型的可能性。

搜索之所以强大，是因为它能够随着计算量的增加而 “透明” 地扩展，并将资源从内存转移到计算，从而实现资源的平衡。最近，DeepMind 在数学领域取得了重要进展，证明了搜索的力量。

不过，搜索的成功首先需要对结果进行高质量的评估。DeepMind 的模型通过将自然语言表述的数学问题转换为形式化表述，实现了有效监督。而在其他领域，像 “总结电子邮件” 这样的开放式 NLP 任务，进行有效搜索的难度则大得多。

这项研究表明，生成模型在特定领域的性能提升，与其评估和搜索能力切相关，未来的研究可以探索如何通过可重复的数字环境来提高这些能力。

论文地址：https://arxiv.org/pdf/2407.21787

大型语言模型 Llama3.1 GPT-4o 强化学习

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

Kimi K2短篇小说创意写作夺冠，超越o3-Pro展现AI文学新高度

Kimi K2模型在创意写作领域表现突出，在短篇小说创作评估中超越o3-Pro夺冠。该开源模型由阿里支持的Moonshot团队开发，在文学压缩、隐喻创新等方面表现优异，部分作品接近出版水平。其低成本优势（每百万输入令牌0.15美元）吸引众多开发者，指令遵循能力使其能精准捕捉创作意图。用户反馈其文本更具人性化，逻辑连贯性优于其他模型，但在情感深度和多语言表现上仍有提升空间。这一突破为AI创意写作树立新标杆，或将影响行业开源计划。

2025年7月16号 9:28

310

Mistral重磅推出Voxtral：开源AI音频模型的新时代来临！

法国Mistral公司发布开源音频模型Voxtral，提供经济高效的语音AI解决方案。该模型基于Mistral Small3.1开发，支持30分钟音频转录和40分钟内容理解，具备多语言处理能力。提供三种版本：240亿参数的Voxtral Small适用于生产环境；30亿参数的Voxtral Mini适合本地部署；3亿参数的Voxtral Mini Transcribe专注转录场景。API起价0.001美元/分钟，性能超越Whisper但价格更低。此次发布延续了Mistral推动开源AI的战略，公司近期正寻求10亿美元融资。

2025年7月16号 8:56

540

TRAE 推出 Kimi-K2模型服务，国际版支持 Grok-4（Beta）功能升级

TRAE.ai推出Kimi-K2模型和Grok-4(Beta)服务。Kimi-K2基于MoE架构，在代码生成和数学推理表现优异，性能接近GPT-4.1等顶级模型。用户可通过简单三步快速接入使用。国际版新增Grok-4(Beta)测试，目前提供包括Claude、Gemini、GPT等主流大模型阵容，满足不同场景需求。

2025年7月16号 8:53

410

AI日报：美图发布影像AI Agent RoboNeo；1.8bit量化Kimi K2模型上线；亚马逊推AI代码编辑器 Kiro

【AI日报热点速览】1.美图RoboNeo上线全能AI影像处理工具，支持自然语言修图、品牌设计和网页制作；2.Unsloth AI发布1.8bit量化Kimi K2模型，体积缩小80%性能不变；3.谷歌Gemini嵌入模型登顶MTEB排行榜；4.Amazon推出AI代码编辑器Kiro，支持Claude 4等模型；5.Claude新增工具目录功能提升AI工作流效率；6.MiniMax完成3亿美元融资，估值超40亿美元；7.UTCP协议发布，实现AI代理直接调用工具；8.Grok推出动漫AI伴侣功能；9.Grok网页版上线语音模式；10.Kimi K2在OpenRouter市场份额超越xAI。

2025年7月15号 16:23

1.0k

Grok4 来袭！马斯克的人工智能新宠，成功挑战编程测试

马斯克旗下AI模型Grok4发布后迅速引发热议。该模型在编程测试中表现出色，能完成六边形小球等复杂任务，并生成创意动画。测试显示Grok4在代码转换、法律分析等8项任务中完胜OpenAI o3，还能针对不同年龄段解释复杂概念。Epic Games创始人称赞其接近通用AI水平。专家合作模拟功能也展现强大潜力，预示Grok4将为工作生活带来革新。

2025年7月15号 15:35

1.5k

Unsloth AI发布1.8bit量化Kimi K2模型，显著降低部署成本

Unsloth AI成功将Moonshot AI的Kimi K2模型量化为1.8bit版本，模型体积从1.1TB压缩至245GB，降幅达80%，同时保持全部性能。这款1万亿参数的开源大模型采用MoE架构，擅长代码生成和推理任务。量化后的版本可在512GB内存的M3Ultra设备上运行，大幅降低部署成本。该技术突破使Kimi K2成为GPT-4.1等商业模型的有力竞争者，为中小企业提供高性能AI解决方案。尽管商业化需遵守开源标注要求，但这一进展显著推动了开源AI生态发展，有望在教育、医疗等领域实现更广泛应用。

2025年7月15号 13:53

1.3k

Meta或将放弃开源理念，转向闭源AI模型开发

Meta或将放弃开源AI战略转向闭源模式。据报其超级智能实验室正讨论停用开源模型"Behemoth"，该模型因测试不佳已推迟发布。虽然发言人强调仍将保持开源立场，但这一转变若成真，将颠覆扎克伯格此前推崇的开源理念。Meta面临巨大AI研发成本压力，在商业化方面落后于OpenAI等竞争对手。此举可能影响整个AI行业格局，削弱开源生态，使权力重回大公司手中，并冲击依赖开源模型的中小企业。中国等国家积极拥抱开源AI的战略也可能因此受到影响。

2025年7月15号 9:41

850

Amazon推AI代码编辑器 Kiro，可免费使用Claude 4/3.7 Sonnet

亚马逊AWS推出全新AI开发工具Kiro，主打"规范驱动开发"理念。该工具基于开源Code OSS平台，兼容VS Code生态，通过AI协作首先生成需求文档和系统设计，再自动生成代码、测试用例和文档，确保代码质量。Kiro支持多模态输入、自动化测试等功能，目前免费预览，未来将推出付费版本。其规范驱动的开发模式有望解决AI生成代码的维护难题，但初期使用可能较复杂。Kiro的推出标志着AI编码工具向生产就绪方向迈进，将与Cursor、微软VS Code等展开竞争。

2025年7月15号 9:34

4.5k

Meta 开源战略现变数?传高层讨论放弃 Behemoth 模型转向封闭开发

Meta被曝可能放弃开源AI战略，转向闭源模式。据《纽约时报》报道，其已完成训练的下一代开源模型Behemoth因性能不佳被搁置，新成立的超级智能实验室正讨论转向闭源。Meta发言人虽坚称开源立场未变，但承认未来将混合开发开放和封闭模型。若CEO扎克伯格批准这一转变，将标志着Meta核心AI战略的重大调整。此举可能重塑全球AI格局，减缓开源势头，影响初创企业生态，并在地缘竞争中让中国在开源领域获得更大优势。Meta面临商业化压力，闭源或能提供更清晰的盈利路径。

2025年7月15号 9:30

750