上海AI Lab复刻OpenAI奥数神器，LLaMA版o1开源

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2024年11月5号 15:16

266

近期，开源社区传来好消息:上海AI Lab团队发布了LLaMA版o1项目，旨在复刻OpenAI的奥数解题神器o1。该项目采用了多种先进技术，包括蒙特卡洛树搜索、Self-Play强化学习、PPO以及AlphaGo Zero的双重策略范式，引起了开发者社区的广泛关注。

早在OpenAI的o1系列发布之前，上海AI Lab团队就开始探索利用蒙特卡洛树搜索来提升大模型的数学能力。o1发布后，团队进一步升级算法，专注于数学奥赛问题，并将其作为OpenAI草莓项目的开源版本进行开发。

为了提升LLaMA模型在数学奥赛问题上的表现，团队采用了成对优化策略，即不直接给出答案的绝对分数，而是比较两个答案的相对优劣。通过这种方法，他们在最难的AIME2024基准测试中取得了显著进步。在30道测试题中，优化后的模型做对了8道，而原版LLaMA-3.1-8B-Instruct模型只做对了2道。这一成绩超过了除o1-preview和o1-mini之外的其他商业闭源方案。

10月底，团队宣布在基于AlphaGo Zero架构复刻OpenAI o1方面取得重大进展，成功使模型在学习过程中通过与搜索树交互获得高级思维能力，而无需人工标注。不到一周，项目便开源了。

目前，LLaMA版o1已开源的内容包括:预训练数据集、预训练模型、强化学习训练代码。其中，“OpenLongCoT-Pretrain”数据集包含超过10万条长思维链数据，每条数据都包含一个完整的数学问题推理过程，包括思考内容、评分结果、问题描述、图形坐标、计算过程、结论推导等完整的推理链路，以及对各个推理步骤的批评和验证内容，为推理过程提供评价和指导。经过在此数据集上的继续预训练，模型可以像o1一样读取和输出长思维链过程。

虽然项目名为LLaMA-O1，但目前官方提供的预训练模型是基于谷歌的Gemma2。在预训练模型的基础上，开发者可以继续进行强化学习训练。训练过程包括:使用蒙特卡洛树搜索进行自我对弈以生成经验;将经验存储在优先经验回放缓冲区中;从缓冲区采样批次数据进行训练;更新模型参数和经验优先级。训练代码中还使用了一些关键技术，包括使用LoRA进行参数高效微调、使用PPO算法作为策略优化方法、实现GAE算法用于计算优势函数、以及使用优先经验回放提高训练效率。

值得注意的是，LLaMA-O1代码发布在名为SimpleBerry的GitHub账号下，该账号没有特别简介，显得比较神秘。从其他与SimpleBerry相关的账号和官网信息中，只能看出其性质是一个研究实验室，但没有透露更多研究方向的信息。

除了LLaMA-O1之外，另一个公开进展的o1复刻项目是来自上海交通大学团队的O1-Journey。该团队在十月初发布了第一份进展报告，介绍了创新的Journey Learning范式，以及第一个成功将搜索和学习整合到数学推理中的模型。O1-Journey核心开发团队主要由上交大大三、大四本科生，以及上交大GAIR实验室（生成式人工智能研究实验室）的一年级博士生组成，指导教师包括上交大副教授刘鹏飞、姚班校友、斯隆奖得主李远志等。

论文地址：https://arxiv.org/pdf/2410.02884

https://arxiv.org/pdf/2406.07394

Meta 宣布举办首届生成式 AI 开发者大会 LlamaCon，聚焦 Llama 系列模型

Meta 公司近日宣布，将于4月29日举行首届 LlamaCon 开发者大会，专注于其 Llama 系列生成式 AI 模型的最新进展。这一大会旨在为开发者提供一个平台，分享开源 AI 的最新成果，帮助他们更好地构建应用和产品。随着生成式 AI 技术的迅猛发展，Meta 希望通过此次大会进一步推动其生态系统的建设。在这场即将到来的大会上，Meta 计划展示多项与 Llama 模型相关的新功能和技术进展。Llama 模型自推出以来下载量已达数亿次，已经吸引了至少25个合作伙伴进行托管，显示出其在行业中的广泛应用。Met

月之暗面解密o1:Long-CoT是关键，模型思考需要"放长线"

月之暗面研究员Flood Sung近日发表万字长文，首次详细披露了k1.5模型的研发思路，并就OpenAI o1模型带来的技术启示进行深度反思。据Flood Sung介绍，Long-CoT（长链条思维）的重要性其实早在一年多前就已被月之暗面联合创始人Tim周昕宇验证。通过使用小型模型训练多位数运算，并将细粒度运算过程转化为长链条思维数据进行SFT(有监督微调)，就能获得显著效果。然而，受限于成本考虑，月之暗面此前将重点放在了Long Context（长文本输入）的优化上。Flood Sung解释道，Long Context主要处理输入端，

加速 AI 布局！Meta 寻求收购AI芯片公司 FuriosaAI

据《福布斯》报道，Meta（前称 Facebook）正在积极洽谈收购一家名为 FuriosaAI 的韩国芯片初创公司。此举旨在增强 Meta 的人工智能硬件基础设施，以应对日益增长的 AI 需求。FuriosaAI 由多位前三星和 AMD 员工创办，专注于开发能够加速人工智能模型运行的芯片，适用于 Meta 的文本生成模型，如 Llama2和 Llama3等。图源备注:图片由AI生成，图片授权服务商MidjourneyFuriosaAI 的技术不仅能够提升 AI 模型的效率，还能为 Meta 在该领域的竞争力提供支持。根据 Crunchbase 的数据，该公司至今已成功从韩国科技

Cerebras与Perplexity携手打造超高速AI搜索模型Sonar，瞄准千亿美元市场

近日，Cerebras Systems 与 Perplexity AI 宣布达成合作，共同推出一款新的超快速 AI 搜索模型 Sonar，旨在挑战传统搜索引擎的主导地位。合作的核心在于 Sonar 模型，该模型在 Cerebras 专用的 AI 芯片上运行，速度达到每秒1200个标记，成为目前市场上最快的 AI 搜索系统之一。Sonar 模型建立在 Meta 的 Llama3.370B 基础上，标志着一种新型 AI 优先的搜索体验，双方对其快速性能寄予厚望。Perplexity 的首席技术官 Denis Yarats 表示:“与 Cerebras 的合作对于 Sonar 的实现至关重要。Cerebras 的尖端 AI 推理基础设施使我