zh
AI产品榜
每月不到10元,就可以无限制地访问最好的AIbase。立即成为会员
首页
AI资讯
AI日报
变现指南
AI教程
AI工具导航
AI产品库
zh
AI产品榜
搜索全球AI产品动态
搜索全球AI信息,发现AI新机遇
新闻资讯
产品应用
变现案例
AI教程
类型 :
新闻资讯
产品应用
变现案例
AI教程
2025-02-21 17:23:48
.
AIbase
.
15.6k
阿里国际开源Ovis2系列多模态大语言模型 共有六个版本
Ovis2 是阿里巴巴国际化团队提出的Ovis系列模型的最新版本。与前序1. 6 版本相比,Ovis2 在数据构造和训练方法上都有显著改进。它不仅强化了小规模模型的能力密度,还通过指令微调和偏好学习大幅提升了思维链(CoT)推理能力。此外,Ovis2 引入了视频和多图像处理能力,并增强了多语言能力和复杂场景下的OCR能力,显著提升了模型的实用性。
2025-01-13 09:21:47
.
AIbase
.
14.6k
一体化 AI 框架Sa2VA:实现图像与视频的深度理解
在多模态大语言模型(MLLMs)的推动下,图像和视频相关的任务取得了革命性的进展,包括视觉问答、叙述生成和交互式编辑等。然而,实现细粒度的视频内容理解仍然面临重大挑战。这一挑战涉及像素级的分割、带有语言描述的跟踪,以及在特定视频提示上进行视觉问答等任务。尽管当前最先进的视频感知模型在分割和跟踪任务上表现出色,但它们在开放式语言理解和对话能力方面仍显不足。此外,视频 MLLMs 在视频理解和问答任务上表现良好,但在处理感知任务和视觉提示方面依然力不
2024-10-08 11:18:05
.
AIbase
.
12.2k
苹果发布MM1.5:多模态 AI 模型的革命,重新定义智能理解?
最近,苹果 AI 研究团队推出了他们的新一代多模态大语言模型(MLLMs)家族 ——MM1.5。这一系列模型能够结合文本、图像等多种数据类型,向我们展示了 AI 在理解复杂任务方面的新能力。像视觉问答、图像生成和多模态数据解读这样的任务,都能在这些模型的帮助下得到更好的解决。多模态模型的一个大挑战,就是如何在不同数据类型之间实现有效的交互。过去的模型常常在处理文本丰富的图像或者细粒度视觉任务时遇到困难。因此,苹果的研究团队在 MM1.5模型中引入了创新的数据中心化
2024-08-14 14:05:00
.
AIbase
.
11.0k
腾讯推首个开源多模态大语言模型VITA 可与用户进行无障碍沟通
腾讯优图实验室等机构发布首个开源多模态大语言模型VITA,旨在填补大型语言模型在处理中文方言的空白。VITA基于Mixtral8×7B模型,扩展了中文词汇量,进行双语指令微调,精通英语与中文。其关键特点包括: 1. **多模态理解**:VITA能处理视频、图像、文本和音频,为开源模型中前所未见。 2. **自然交互**:无需特定唤醒词,可即时响应,保持礼貌不干扰。 3. **开源先锋**:推动多模态理解和交互领域的研究进展。 VITA通过双重模型部署实现精准、及时的交互,不仅能聊天,还能作为健身伙伴、旅游顾问,根据输入内容回答问题。在情感语音合成和多模态支持上,VITA正持续优化,目标是生成高质量音频和视频内容。VITA的开源发布,标志着智能交互方式的革新,未来将提供更智能、更人性化的体验。