InternVL:60 亿参数视觉语言基础模型填补多模态 AGI 的差距

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · Dec 28, 2023

近期，人工智能领域一直将视觉和语言的无缝整合作为关注焦点，特别是在大型语言模型（LLMs）的出现下，该领域取得了显著进展。然而，对于多模态 AGI 系统而言，发展视觉和视觉语言基础模型仍有待迎头赶上。为填补这一差距，来自南京大学、OpenGVLab、上海人工智能实验室、香港大学、香港中文大学、清华大学、中国科技大学和 SenseTime Research 的研究人员提出了一种创新的模型 ——InternVL。该模型扩大了视觉基础模型的规模，并使其适应通用的视觉语言任务。InternVL 通过在 32 个通用视觉语言基准测试中超越现有方法，展示了其在图像和视频分类、图像和视频文本检索、图像字幕、可见问题回答以及多模态对话等各种任务中的卓越能力。

多模态 AGI 视觉语言基础模型视觉能力

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

中文视觉语音开源模型VITA-1.5发布具备类GPT 4o高级语音和视觉能力

最近，多模态大型语言模型（MLLM）取得了显著进展，特别是在视觉和文本模态的集成方面。但随着人机交互的日益普及，语音模态的重要性也日益凸显，尤其是在多模态对话系统中。语音不仅是信息传输的关键媒介，还能显著提高交互的自然性和便利性。然而，由于视觉和语音数据在本质上的差异，将它们整合到 MLLM 中并非易事。例如，视觉数据传达空间信息，而语音数据则传达时间序列中的动态变化。这些根本性的差异给两种模态的同步优化带来了挑战，常常导致训练过程中的冲突。此

2025年1月7号 9:37

1.8k

重磅！AI科学家另辟蹊径，用大模型竟能自动探索人工生命

近日，Sakana AI 的科学家们在人工智能领域取得了突破性进展，他们首次成功利用视觉语言基础模型（vision-language foundation models，FMs）实现了人工生命(Artificial Life，ALife) 模拟的自动搜索。这项名为 ASAL(Automated Search for Artificial Life，人工生命自动搜索) 的新方法，为人工生命领域的研究带来了革命性的变革，有望加速该领域的发展。传统的人工生命研究主要依赖人工设计和试错，而 ASAL 的出现改变了这一现状。该方法的核心是通过基础模型来评估模拟产生的视频，从而自动搜索有趣的 ALife 模

2024年12月25号 14:18

3.1k

LeCun首发全新视觉多模态模型Cambrian-1 视觉能力干翻GPT-4V

在AI的世界里，我们刚刚迎来了一个令人瞩目的新成员——Cambrian-1，这是一个由LeCun和谢赛宁等业界大牛联手打造的多模态大型语言模型（MLLM）。这个模型的出现，不仅仅是技术上的一次飞跃，更是对多模态学习研究的一次深刻反思。

2024年6月27号 16:41

2.8k

人类情感模拟：Ameca 类人机器人展示视觉能力和多模态AI功能

["Ameca 是一款拥有视觉能力的类人机器人，具备多模态AI功能，展现了接近人类的情感和反应。","Ameca 的进化涉及多领域技术，包括语言模型、图像生成、语音识别等，使其在交互和创作方面都有显著提升。","Ameca 的人性化特质来源于广泛的传感器系统和底层操作系统的支持，使其能够精准模拟人类行为和情感反应。","Ameca 的视觉能力标志着其技术进步的重要里程碑。","Ameca 的进化离不开多领域技术的融合，为人工智能与人类社会融合提供了新的可能性。","Ameca 的人性化特质是其引人注目的特点之一。"]

2024年3月1号 11:47

380

中国研究人员推出CogVLM：强大开源视觉语言基础模型

["CogVLM是中国研究人员开发的开源视觉语言基础模型，深度整合语言和视觉信息，在跨模态任务中取得显著进展。","采用新颖训练方法，引入可训练的视觉专家提高VLM预训练中语言模型的视觉理解能力，避免深度整合方法性能不佳。","CogVLM-17B在14个跨模态基准测试中表现卓越，包括图像字幕、视觉问答等任务，为视觉理解研究和工业应用带来积极影响。","开源CogVLM-28B-zh支持中英文混合商业应用，突破了过去闭源视觉语言模型的局限，对领域研究和实际应用具有显著影响。","作为强大的开源视觉语言基础模型，CogVLM通过创新训练方法和深度整合策略成功提高了视觉理解能力，为跨模态任务性能提升开辟了新途径。"]

2023年11月13号 16:32

330

MiniGPT-v2大幅提升视觉能力，GitHub项目获两万星

["MiniGPT-v2是一款视觉模型，由华人团队开发，已在GitHub获得超过两万颗星标。","这一模型能够完成多种视觉任务，包括目标对象描述、视觉定位和图像说明。","MiniGPT-v2采用多阶段训练，取得在视觉问题解答和接地基准测试中的优异成绩。","该模型以ViT视觉主干为基础，并通过简单多模态指令实现高效的任务完成。"]

2023年10月19号 9:15

290

AI资讯

AI日报

AI时间线

Al硬件

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图