在近日的发布会上,阿里国际 AI 团队揭晓了其最新研发的多模态大模型 Ovis,这一创新的 AI 技术无疑为各行业带来了新的机遇。Ovis 具备强大的图像理解和数据处理能力,让人耳目一新。

Ovis 的多模态能力极其强大,它能够处理文本、图像等多种数据,展现出优秀的综合实力。与传统的大语言模型相比,Ovis 不仅能理解文本,还能对图像等非文本信息进行深入分析。

比如说,用户只需上传一张菜品的照片,Ovis 便能迅速识别并提供详细的烹饪步骤,帮助用户轻松做出美味佳肴。

图片

Ovis通过对图片的识别处理能够给出菜谱

根据多模态评测平台 OpenCompass 的数据,Ovis1.6-Gemma2-9B 在30B 参数以下的模型中,取得了综合排名第一,超越了 MiniCPM-V-2.6等一系列优秀模型。这项成就证明了 Ovis 在市场中的竞争力。

图片

Ovis在OpenCompass上的测评数据情况

此外,Ovis 在数学推理、物体识别和复杂决策等领域表现出色。例如,它能精准地解答数学题、识别花卉品种,甚至在手写文本的翻译上也毫不逊色。Ovis 的五大核心优势中,最引人关注的是其创新的架构设计和高分辨率图像处理能力,使得它在多模态任务中的表现大幅提升。

Ovis 的开源策略同样令人称道。它的 License 采用 Apache2.0协议,意味着用户可以自由使用和改进这个模型。Ovis 系列的模型和代码都已在 GitHub 上开源,开发者们可以轻松获取并进行二次开发。

在自动驾驶、医疗诊断、视频内容理解等广泛应用场景中,多模态大模型 Ovis 都显示出了巨大的潜力。阿里国际团队透露,近半年的数据显示,商家对 AI 的需求不断增长,平均每两个月调用量翻一番,Ovis 无疑将助力更多商家提升运营效率。

划重点:

1️⃣ Ovis 是一款多模态大模型,能够处理文本和图像等多种数据类型,展现出色的综合能力。

2️⃣ Ovis1.6-Gemma2-9B 在 OpenCompass 评测中获得30B 参数以下模型的综合排名第一,超越了多款优秀竞争者。

3️⃣ Ovis 采用 Apache2.0开源协议,所有模型和代码已在 GitHub 上公开,开发者可自由使用与改进。