AI新闻资讯

AI资讯

不错过全球AI革新的每一个时刻

AI日报

每天三分钟关注AI行业趋势

AI时间线

AI行业大事记

AI变现指南

最新案例

AI变现案例分享

图片合集

AI图片制作变现案例分享

视频合集

AI视频制作变现案例分享

音频合集

AI音频制作变现案例分享

文案合集

AI内容写作变现案例分享

AI教程

最新教程

免费分享最新AI教程内容

AI产品榜

AI产品排行榜

展示AI网站的总访问量排名

AI产品流量增速榜

追踪AI网站访问量增长最快产品

AI产品流量下降榜

关注访问量下降明显的AI网站

AI产品周榜

展示AI网站的周访问量排名

热门国家排行榜

美国

美国用户最喜欢的AI网站

中国

中国用户最喜欢的AI网站

印度

印度用户最喜欢的AI网站

巴西

巴西用户最喜欢的AI网站

热门分类榜

图片生成

AI图片生成网站总访问量榜单

个人助理

AI个人助理网站总访问量榜单

角色生成网站

AI角色生成网站总访问量榜单

视频生成

AI视频生成网站总访问量榜单

热门开源数据榜单

AI项目榜单

热门AI项目总Start榜单

AI项目增速榜

热门AI项目增速榜

AI开发者排名

热门AI开发者排名

AI组织排名

热门AI组织排名榜单

热门开源分类

deepseek

热门deepseek开源项目

TTS

热门TTS开源项目

LLM

热门LLM开源项目

ChatGPT

热门ChatGPT开源项目

AI开源项目库

全景图

github热门AI开源项目总览

产品库工具导航

搜索全球AI产品动态

搜索全球AI信息，发现AI新机遇

✓新闻资讯
产品应用

类型 :

✓新闻资讯
产品应用

2025-03-24 15:58:55.AIbase

微软推出 GeoMap-Bench，助力地质图理解的智能化

在地质科学领域，地质图是理解地球表面及地下结构的关键工具。然而，解读这些复杂的图表需要专业知识和丰富的经验。为了提升这一领域的智能化水平，微软亚洲研究院近日推出了一个新基准集 GeoMap-Bench，专门用于评估多模态大语言模型（MLLMs）在地质图理解方面的表现。GeoMap-Bench 的推出标志着地质图解读的人工智能应用迈出了重要一步。微软研究人员与中国地质科学院及武汉大学的专家深入探讨，确定了地质图理解所需的五大关键能力:信息提取、定位、指代、推理和分析。这些能

微软推出 GeoMap-Bench，助力地质图理解的智能化

2025-02-21 17:23:48.AIbase

阿里国际开源Ovis2系列多模态大语言模型共有六个版本

Ovis2 是阿里巴巴国际化团队提出的Ovis系列模型的最新版本。与前序1. 6 版本相比，Ovis2 在数据构造和训练方法上都有显著改进。它不仅强化了小规模模型的能力密度，还通过指令微调和偏好学习大幅提升了思维链（CoT）推理能力。此外，Ovis2 引入了视频和多图像处理能力，并增强了多语言能力和复杂场景下的OCR能力，显著提升了模型的实用性。

阿里国际开源Ovis2系列多模态大语言模型共有六个版本

2025-01-13 09:21:47.AIbase

一体化 AI 框架Sa2VA:实现图像与视频的深度理解

在多模态大语言模型（MLLMs）的推动下，图像和视频相关的任务取得了革命性的进展，包括视觉问答、叙述生成和交互式编辑等。然而，实现细粒度的视频内容理解仍然面临重大挑战。这一挑战涉及像素级的分割、带有语言描述的跟踪，以及在特定视频提示上进行视觉问答等任务。尽管当前最先进的视频感知模型在分割和跟踪任务上表现出色，但它们在开放式语言理解和对话能力方面仍显不足。此外，视频 MLLMs 在视频理解和问答任务上表现良好，但在处理感知任务和视觉提示方面依然力不

一体化 AI 框架Sa2VA:实现图像与视频的深度理解

2024-10-08 11:18:05.AIbase

苹果发布MM1.5：多模态 AI 模型的革命，重新定义智能理解？

最近，苹果 AI 研究团队推出了他们的新一代多模态大语言模型（MLLMs）家族 ——MM1.5。这一系列模型能够结合文本、图像等多种数据类型，向我们展示了 AI 在理解复杂任务方面的新能力。像视觉问答、图像生成和多模态数据解读这样的任务，都能在这些模型的帮助下得到更好的解决。多模态模型的一个大挑战，就是如何在不同数据类型之间实现有效的交互。过去的模型常常在处理文本丰富的图像或者细粒度视觉任务时遇到困难。因此，苹果的研究团队在 MM1.5模型中引入了创新的数据中心化

苹果发布MM1.5：多模态 AI 模型的革命，重新定义智能理解？

2024-08-14 14:05:00.AIbase

腾讯推首个开源多模态大语言模型VITA 可与用户进行无障碍沟通

腾讯优图实验室等机构发布首个开源多模态大语言模型VITA，旨在填补大型语言模型在处理中文方言的空白。VITA基于Mixtral8×7B模型，扩展了中文词汇量，进行双语指令微调，精通英语与中文。其关键特点包括： 1. **多模态理解**：VITA能处理视频、图像、文本和音频，为开源模型中前所未见。 2. **自然交互**：无需特定唤醒词，可即时响应，保持礼貌不干扰。 3. **开源先锋**：推动多模态理解和交互领域的研究进展。 VITA通过双重模型部署实现精准、及时的交互，不仅能聊天，还能作为健身伙伴、旅游顾问，根据输入内容回答问题。在情感语音合成和多模态支持上，VITA正持续优化，目标是生成高质量音频和视频内容。VITA的开源发布，标志着智能交互方式的革新，未来将提供更智能、更人性化的体验。

腾讯推首个开源多模态大语言模型VITA 可与用户进行无障碍沟通