北大团队发布多模态模型 LLaVA-o1，推理能力堪比 GPT-o1！

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Nov 19, 2024

384

近日，北京大学等科研团队宣布发布了一款名为 LLaVA-o1的多模态开源模型，据称这是首个能够进行自发、系统推理的视觉语言模型，堪比 GPT-o1。

该模型在六个具有挑战性的多模态基准测试中表现优异，其11B 参数的版本超越了其他竞争者，如 Gemini-1.5-pro、GPT-4o-mini 和 Llama-3.2-90B-Vision-Instruct。

LLaVA-o1基于 Llama-3.2-Vision 模型，采用了 “慢思考” 推理机制，能够自主进行更加复杂的推理过程，超越了传统的思维链提示方法。

在多模态推理基准测试中，LLaVA-o1的表现超出了其基础模型8.9%。该模型的独特之处在于其推理过程被分为四个阶段:总结、视觉解释、逻辑推理和结论生成。在传统模型中，推理过程往往比较简单，容易导致错误答案，而 LLaVA-o1通过结构化的多步骤推理，确保了更为精准的输出。

例如，在解决 “减去所有的小亮球和紫色物体，剩下多少个物体?” 的问题时，LLaVA-o1会首先总结问题，接着从图像中提取信息，然后进行逐步推理，最终给出答案。这种分阶段的方法提升了模型的系统推理能力，使其在处理复杂问题时更为高效。

值得一提的是，LLaVA-o1在推理过程中引入了阶段级光束搜索方法。这种方法允许模型在每个推理阶段生成多个候选答案，并选择最佳的答案继续进行下一阶段的推理，从而显著提高了整体推理质量。通过监督微调和合理的训练数据，LLaVA-o1在与更大或闭源模型的比较中表现出色。

北大团队的研究成果不仅推动了多模态 AI 的发展，也为未来的视觉语言理解模型提供了新的思路和方法。团队表示，LLaVA-o1的代码、预训练权重和数据集都将全面开源，期待更多研究者和开发者能够共同探索和应用这一创新模型。

论文:https://arxiv.org/abs/2411.10440

GitHub:https://github.com/PKU-YuanGroup/LLaVA-o1

划重点:
🌟 LLaVA-o1是北京大学等团队发布的全新多模态推理模型，具备 “慢思考” 推理能力。
📈 该模型在多模态推理基准测试中性能超越基础模型8.9%。
🔍 LLaVA-o1通过结构化的多步骤推理，确保准确性，并将于近期开源。

LLaVA-o1 多模态 GPT-o1 Llama-3.2-Vision

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

AI日报：国内首个多模态AI程序员上岗；字节启动Top Seed计划招募AI人才；DeepSeek R1T Chimera上线OpenRouter

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、国内首个多模态AI程序员正式上岗文心快码Coding智能体Zulu正式发布在2025年4月25日的百度Create AI开发者大会上，百度推出了文心快码3.5版本及其多模态AI程序员文心快码Comate Zulu智能体，标志着AI编程工具的新纪元。Zulu智能体通过高效的多模态交互，能够自动生成代码并支持多种开发环境，极大

2025年4月28号 15:34

3.9k

国内首个多模态AI程序员正式上岗文心快码Coding智能体Zulu正式发布

百度Create AI开发者大会在北京隆重举行。在这场备受瞩目的科技盛会中，百度正式发布了文心快码3.5版本以及国内首个多模态AI程序员——文心快码Comate Zulu智能体，标志着AI编程工具进入了一个全新的发展阶段。

2025年4月28号 10:18

1.5k

智谱与生数科技达成战略合作专注大模型联合创新

4月27日，清华大学旗下的两家明星人工智能公司智谱（Z.ai）和生数科技(shengshu.com)宣布达成重大战略合作。此次合作旨在通过双方在大语言模型和多模态生成模型的技术积累与优势，共同推进国产大模型的技术创新与产业落地。

2025年4月27号 14:09

5.8k

芯驰发布新一代4纳米 AI 座舱芯片 X10，提升智能驾驶体验

在2025上海车展上，芯驰科技正式推出了最新研发的 AI 座舱芯片 ——X10。这款芯片采用了先进的4纳米制程工艺，具备强大的计算能力，能够支持7B 参数的多模态大模型在端侧的本地部署。这标志着芯驰科技在智能座舱芯片领域的一次重大突破，预计将大幅提升智能驾驶体验。从技术规格来看，X10芯片配备了200K DMIPS 算力的 Arm v9.2架构 CPU，搭载1.8TFLOPS 算力的 GPU 以及40TOPS 算力的 NPU，确保其在处理复杂计算任务时具备极高的效率。该芯片还支持128bit 位宽的9600MT/s LPDDR5x 内存，系统内存带宽达

2025年4月27号 9:57

940

Moonshot AI发布Kimi-Audio：开源音频基础模型树立新标杆

近日，Moonshot AI正式宣布推出Kimi-Audio，一款全新的开源音频基础模型，旨在推动音频理解、生成和交互领域的技术进步。这一发布引发了全球AI社区的广泛关注，被认为是多模态AI发展的重要里程碑。以下是对Kimi-Audio核心特性、性能表现及行业影响的全面报道。突破性特性:全能音频处理能力Kimi-Audio-7B-Instruct基于Qwen2.5-7B架构，并结合Whisper技术，展现了强大的多功能性。该模型支持多种音频相关任务，包括但不限于:语音识别（ASR）、音频问答(AQA)、音频字幕(AAC)、语音情感识别(SER)、声音事件

2025年4月27号 9:04

4.0k

Step1X-Edit：开源图像编辑新标杆媲美GPT-4o等闭源模型

2025年4月27日，AIbase报道：由Stepfun AI团队推出的Step1X-Edit图像编辑模型于近日正式开源，引发业界广泛关注。这一通用图像编辑框架以其卓越性能和实用的开源特性，展现了媲美GPT-4o和Gemini 2 Flash等闭源模型的潜力。以下是对Step1X-Edit的全面解析，涵盖其技术亮点、应用场景及未来影响。创新技术架构Step1X-Edit采用多模态大语言模型（MLLM）与扩散变换器（DiT）的结合，通过处理用户提供的参考图像和编辑指令，生成高质量的目标图像。其核心创新在于将多模态语言模型的语义理解能力与扩散

2025年4月27号 8:53

780

GPT-4o图像生成功能现已集成至自定义GPTs

2025年4月26日 AIbase报道：OpenAI近日宣布，其旗舰多模态模型GPT-4o的图像生成功能现已正式集成至ChatGPT的自定义GPTs功能中。这一更新标志着用户创建的定制化AI助手能够直接生成和编辑图像，为内容创作、设计和教育等领域带来更多可能性。无缝集成的图像生成体验GPT-4o的图像生成功能此前已于2025年3月25日起在ChatGPT和Sora平台向免费、Plus、Pro和Team用户逐步开放。与过去依赖DALL-E3等外部模型不同，GPT-4o的图像生成能力内嵌于模型本身，支持直接根据文本提示生成高质量图像。如今，这一功能

2025年4月27号 8:36

1.2k

Meta 发布 WebSSL 模型：无语言视觉学习的新探索

在人工智能领域，Meta 公司最近推出了 WebSSL 系列模型，这一系列模型的参数规模从3亿到70亿不等，基于纯图像数据进行训练，旨在探索无语言监督的视觉自监督学习（SSL）的巨大潜力。这一新研究为未来的多模态任务带来了新的可能性，也为我们理解视觉表征的学习方式提供了新的视角。过去，OpenAI 的 CLIP 模型因其在视觉问答（VQA）和文档理解等多模态任务中的优异表现而备受关注。然而，由于数据集的获取复杂性及其规模限制，基于语言的学习方法面临诸多挑战。为了应对这一问题，

2025年4月25号 13:49

3.4k

共同阶跃星辰与原力灵机达成战略合作

阶跃星辰与原力灵机在北京签署了战略合作协议，双方将利用各自的技术优势，在多模态大模型技术、智能终端 Agent 和具身智能场景方面展开深入合作。此次合作的目标是实现 “实现在物理世界的推理”，共同开发一种名为 “RoboAgent” 的智能机器人，推动通用人工智能（AGI）在实际应用中的落地。签约仪式上，阶跃星辰的创始人兼 CEO 姜大昕博士和原力灵机的联合创始人范浩强共同见证了这一重要时刻。阶跃星辰的 COO 曹志敏和原力灵机的 CTO 周而进分别代表双方签署了协议。根据协议内

2025年4月24号 13:43

9.8k

昆仑万维开源Skywork-R1V 2.0版本视觉与文本推理能力提升

4月24日，昆仑万维宣布正式开源其多模态推理模型Skywork-R1V2.0（以下简称R1V2.0）。这一升级版本在视觉与文本推理能力上均实现了显著提升，特别是在高考理科难题的深度推理和通用任务场景中表现出色，堪称当前最均衡兼顾视觉与文本推理能力的开源多模态模型。

2025年4月24号 10:31

2.7k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图

​北大团队发布多模态模型 LLaVA-o1，推理能力堪比 GPT-o1！

AIbase基地

本文来自AIbase日报

相关AI新闻推荐

AI日报：国内首个多模态AI程序员上岗；字节启动Top Seed计划招募AI人才；DeepSeek R1T Chimera上线OpenRouter

国内首个多模态AI程序员正式上岗 文心快码Coding智能体Zulu正式发布

智谱与生数科技达成战略合作 专注大模型联合创新

​芯驰发布新一代4纳米 AI 座舱芯片 X10，提升智能驾驶体验