豆包大模型家族全面升级，重磅推出视觉理解模型、音乐4.0模型

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Dec 18, 2024

485

在2024年12月18日的火山引擎 FORCE 原动力大会上，火山引擎宣布对豆包大模型家族进行全面升级，并重磅发布了全新的视觉理解模型。

火山引擎总裁谭待表示，豆包大模型的日均 tokens 使用量在过去几个月中迅猛增长，达到了超过4万亿，相较于5月发布时增长了33倍。这一增长趋势显示出豆包大模型在多个应用场景中的广泛使用。

本次，火山引擎通过推出视觉理解模型，使得用户能够同时输入文本和图像的问题，模型能够综合理解并给出准确的回答。这一创新将大大简化应用的开发流程，并激活大模型在更多场景下的潜力。

视觉理解模型具备更强的内容识别能力，不仅可以识别出图像中的物体类别、形状等基本要素，还能理解物体之间的关系、空间布局以及场景的整体含义。比如识别影子、识别自然知识等。

视觉理解模型具备更强的理解和推理能力，不仅能更好地识别内容，还能根据所识别的文字和图像信息进行复杂的逻辑计算，比如:图表推理、物理推理。

另外，还拥有更细腻的视觉描述能力，可以基于图像信息，更细腻地描述图像呈现的内容，还能进行多种文体的创作，比如图像创作、图像诗歌创作等。

豆包视觉理解模型在教育、旅游和电商等多个领域展现出广泛的应用前景。例如，在教育方面，模型可以帮助学生优化作文和科普知识;在旅游方面，模型能为游客提供外文菜单的翻译和建筑背景知识的讲解;在电商营销中，它可以帮助商家详细描述商品特性，从而提高广告效果。

视觉理解模型的使用成本也十分亲民，每千 tokens 的价格为0.003元，较行业平均价格降低了85%。这一价格水平使得每一块钱可以处理多达284张720P 的图片，标志着视觉理解技术进入了 “厘时代”。此外，火山引擎还为企业和开发者提供了高达15，000次的初始流量支持，帮助他们更好地利用这一技术。

在此次大会上，火山引擎不仅发布了视觉理解模型，还对其他多个模型进行了升级。豆包通用模型 pro 的综合任务处理能力较5月提升了32%，而在推理、指令遵循、代码和数学等领域也分别有显著提升。同时，豆包・视频生成模型将于2025年1月对外开放服务，企业可以预约使用。

为了提升企业的信息获取和搜索推荐能力，火山引擎还推出了全域 AI 搜索服务，帮助企业更好地连接信息和用户需求，助力各行业的智能化转型。

划重点:
🔍 豆包大模型的日均 tokens 使用量达4万亿，较5月增长33倍。
💡 新推出的视觉理解模型支持文本与图像同时输入，适用于教育、旅游和电商等领域。
💰 每千 tokens 的使用成本仅为0.003元，显著低于行业平均价格。

火山引擎豆包大模型视觉理解模型 AI新词

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

即梦视频3.0内测：运镜丝滑、精准捕捉人物表情

昨天晚上，即梦开启视频3.0模型内测。新视频模型，运镜更流畅，相较前几个模型，提示词遵循度也更高了。从官方给出了几个示例看，新模型在大幅度动作上表现也更稳了，不会轻易出现人物崩坏的情况。男人打高尔夫球、小狗做饭、男孩深情歌唱、玩偶与机器人拥抱等各类场景都能轻松搞定。即梦3.0主要亮点如下:1、丰富的镜头语言从制造紧张感的急速推进，到展现广阔场景的舒缓平移，再到聚焦主体的环绕运镜，乃至营造特殊视角的低角度上升及俯拍，多种专业级运镜方式信手拈来

2025年4月25号 9:46

580

Adobe的AI图像生成工具Firefly将发布iOS和安卓版

在最新的动态中，Adobe 公司宣布将推出其 AI 图像生成工具 Firefly 的移动版本，旨在与 OpenAI 进行更为激烈的竞争。这一消息在伦敦的 MAX 创意大会上得到正式发布，Adobe 表示 Firefly 的移动应用程序将很快上线，支持 iOS 和安卓平台，但具体的发布日期尚未确定。Adobe Firefly 的副总裁 Alexandru Costin 在接受 CNBC 采访时指出，创意工作者在移动中常常会激发灵感，而 Firefly 的移动版本正是为了成为用户随时随地的 “创意伙伴”。通过这个应用，用户可以轻松捕捉到灵感，进而提升工作效率。例如，

2025年4月25号 9:12

2.4k

ChatGPT Search 用户激增，欧盟监管压力加剧

根据 OpenAI 最近的一份报告，其旗下的 ChatGPT Search 在欧盟的用户数量在过去六个月内大幅增长，活跃用户数达到了约4130万。这个数字相比于2024年10月的1120万几乎是三倍的提升。这一变化意味着 ChatGPT Search 很可能在不久的将来达到欧盟《数字服务法》（DSA）所规定的4500万用户的门槛，一旦超过这一界限，将面临更严格的监管措施。DSA 是一项旨在规范在线服务的法律，其中规定了对 “超大型” 平台的多项要求。当平台的平均月活跃用户数超过4500万时，它们必须满足一系列新要求，包括允

2025年4月22号 8:55

2.1k

华晨宝马与字节跳动火山引擎合作，推动AI赋能汽车营销

近日，华晨宝马领悦数字信息技术有限公司（“领悦”）与字节跳动旗下火山引擎达成合作，双方将在人工智能(AI)技术的帮助下创新汽车营销服务。此次合作通过AI技术实现精准的产品匹配与购车建议，优化内容引导，提升用户购车体验及经销商运营效率。宝马集团大中华区总裁高翔表示，AI是宝马打造更智能、贴心出行解决方案的关键，正在加速融入研发、生产、供应链、产品、服务及运营各个环节。“此次合作将推动营销模式的创新，提升数字化客户旅程，并助力经销商提高运营效率

2025年4月18号 14:14

30.6k

字节豆包开源 Seed 智能体模型 UI-TARS-1.5

字节跳动豆包大模型团队宣布开源 UI-TARS-1.5，这是一款基于视觉 - 语言模型构建的开源多模态智能体，能够在虚拟世界中高效执行各类任务。该模型在7个典型的 GUI 图形用户界面评测基准中取得了 SOTA（State-of-the-Art）表现，并首次展现了其在游戏中的长时推理能力和在开放空间中的交互能力。这一开源项目标志着多模态智能体技术在 GUI 操作和游戏推理领域取得了重要进展。

2025年4月18号 8:01

3.4k

豆包深度思考和文生图3.0模型正式开放API 对企业客户开放

豆包大模型近日发布了系列更新，其中豆包1.5·深度思考模型和豆包文生图模型3.0正式通过火山引擎开放 API，供开发者和企业客户使用。这两款模型在推理任务和通用任务的综合表现达到了业界前沿水平，并在视觉推理和图像生成方面取得了显著进展。

2025年4月17号 13:37

7.5k

字节发布豆包1.5深度思考模型：多模态深度思考、延迟低

在4月17日的火山引擎 AI 创新巡展杭州站上，字节跳动旗下的火山引擎总裁谭待正式发布了最新的豆包1.5・深度思考模型。此次发布会吸引了众多行业人士的关注，谭待在会上分享了该模型在多个领域的优异表现。据悉，豆包1.5模型在数学、编程、科学推理等专业领域，以及创意写作等任务中，都展现出了卓越的能力。这款新模型采用了 MoE（混合专家）架构，总参数达200亿，而激活参数仅为20亿，显著低于行业同类模型的参数规模，因而在推理成本上也具备了明显的优势。谭待还详细介绍了

2025年4月17号 11:13

7.9k

火山引擎发布豆包1.5深度思考模型：结合视觉理解与智能项目管理

在近日举行的火山引擎FORCE LINK AI创新巡展上，火山引擎总裁谭待正式公布了豆包1.5深度思考模型，标志着这一创新技术将正式面向企业提供服务。豆包1.5不仅在基础功能上进行了升级，还引入了更多智能化的应用场景，助力企业实现更高效的数字化转型。谭待在发布会上表示，豆包1.5深度思考模型能够结合视觉理解，提供更多创新功能。例如，该模型能够根据用户上传的照片进行地貌分析，帮助旅行者在外出时更方便地选择餐饮，并可辅助企业进行项目管理和流程图的生成，大大提升了工

2025年4月17号 10:45

3.9k

推理能力飞跃?豆包1.5深度思考模型即将正式服务企业

火山引擎今日发布活动预热，正式宣布其新款豆包大模型将于明日（4月17日）在FORCE LINK AI创新巡展杭州站上隆重发布。官方信息显示，此次发布会将带来豆包大模型家族的全新升级，并特别推出备受瞩目的豆包1.5深度思考模型。此前已有消息透露，豆包APP和桌面端已针对“深度思考模式”进行了多轮实验性测试。此次发布后，该模型将正式面向企业客户提供服务。据悉，豆包公众号此前已公开宣布测试新版深度思考功能，该功能创新性地将推理过程中的思维链与搜索能力相结合，实现了“

2025年4月16号 17:42

4.4k

字节跳动推出 Multi-SWE-bench，开创多语言代码自动修复新标准

在程序开发的世界中，错误修复总是一个令人头疼的问题。如今，字节跳动的豆包大模型团队为此带来了好消息:他们正式推出了首个多语言软件工程（SWE）数据集 ——Multi-SWE-bench。这个新数据集旨在评估和提升大模型在自动修复代码错误方面的能力。Multi-SWE-bench 与以往的单语言数据集相比，显著扩大了适用范围。这一数据集不仅涵盖了 Python，还包括 Java、Go、Rust、C、C++、TypeScript 和 JavaScript 等七种主流编程语言，真正实现了 “全栈工程” 的评测基准。这意味着无论开发者使用哪种语言

2025年4月10号 16:11

5.3k

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图

​豆包大模型家族全面升级，重磅推出视觉理解模型、音乐4.0模型