在2024年12月18日的火山引擎 FORCE 原动力大会上,火山引擎宣布对豆包大模型家族进行全面升级,并重磅发布了全新的视觉理解模型。

image.png

火山引擎总裁谭待表示,豆包大模型的日均 tokens 使用量在过去几个月中迅猛增长,达到了超过4万亿,相较于5月发布时增长了33倍。这一增长趋势显示出豆包大模型在多个应用场景中的广泛使用。

image.png

本次,火山引擎通过推出视觉理解模型,使得用户能够同时输入文本和图像的问题,模型能够综合理解并给出准确的回答。这一创新将大大简化应用的开发流程,并激活大模型在更多场景下的潜力。

视觉理解模型具备更强的内容识别能力,不仅可以识别出图像中的物体类别、形状等基本要素,还能理解物体之间的关系、空间布局以及场景的整体含义。比如识别影子、识别自然知识等。

image.png

视觉理解模型具备更强的理解和推理能力,不仅能更好地识别内容,还能根据所识别的文字和图像信息进行复杂的逻辑计算,比如:图表推理、物理推理。

image.png

另外,还拥有更细腻的视觉描述能力,可以基于图像信息,更细腻地描述图像呈现的内容,还能进行多种文体的创作,比如图像创作、图像诗歌创作等。

image.png

豆包视觉理解模型在教育、旅游和电商等多个领域展现出广泛的应用前景。例如,在教育方面,模型可以帮助学生优化作文和科普知识;在旅游方面,模型能为游客提供外文菜单的翻译和建筑背景知识的讲解;在电商营销中,它可以帮助商家详细描述商品特性,从而提高广告效果。

视觉理解模型的使用成本也十分亲民,每千 tokens 的价格为0.003元,较行业平均价格降低了85%。这一价格水平使得每一块钱可以处理多达284张720P 的图片,标志着视觉理解技术进入了 “厘时代”。此外,火山引擎还为企业和开发者提供了高达15,000次的初始流量支持,帮助他们更好地利用这一技术。

image.png

在此次大会上,火山引擎不仅发布了视觉理解模型,还对其他多个模型进行了升级。豆包通用模型 pro 的综合任务处理能力较5月提升了32%,而在推理、指令遵循、代码和数学等领域也分别有显著提升。同时,豆包・视频生成模型将于2025年1月对外开放服务,企业可以预约使用。

image.png

image.png

为了提升企业的信息获取和搜索推荐能力,火山引擎还推出了全域 AI 搜索服务,帮助企业更好地连接信息和用户需求,助力各行业的智能化转型。

划重点:

🔍 豆包大模型的日均 tokens 使用量达4万亿,较5月增长33倍。

💡 新推出的视觉理解模型支持文本与图像同时输入,适用于教育、旅游和电商等领域。

💰 每千 tokens 的使用成本仅为0.003元,显著低于行业平均价格。