清华唐杰 & 智谱开源 CogVLM-17B：国产多模态模型挑战 GPT-4V

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · 2023年10月10号 14:14

清华大学与智谱 AI 合作开发的国产多模态模型 CogVLM-17B 表现出卓越的性能。该模型可以识别图像中的对象，并且能够分辨完整可见和部分可见的物体。CogVLM-17B 采用了独特的深度融合方法，通过四个关键组件实现了图像特征和文本特征的深度对齐。该模型在多个领域超越了谷歌的模型，被称为 “14 边形战士”，展现了出色的多模态处理能力。这款国产多模态模型为多模态领域的技术研究提供了新的思路和可能性。

阿里云魔搭首发上线阶跃星辰最新开源的两款多模态模型

全球开发者目光再次聚焦中国!在备受瞩目的全球开发者大会（GDC）上，阿里云魔搭社区重磅宣布，首发上线阶跃星辰最新开源的两款多模态模型，包括全球参数量最大的开源视频生成模型 Step-Video-T2V，以及业界首款产品级开源语音交互模型 Step-Audio。这一消息瞬间引爆全球AI开源社区，再次彰显中国在人工智能领域的强劲创新实力。作为中国最大的AI模型社区，阿里云魔搭社区此次发布的这两款重磅模型，无疑是近期全球多模态领域最受瞩目的开源成果。 Step-Video-T2V 以其巨大的参数规模

小而强！微软发布小型模型LLaVA-Rad，实现精准放射学报告生成

近日，微软研究院联合华盛顿大学、斯坦福大学、南加州大学、加利福尼亚大学戴维斯分校以及加利福尼亚大学旧金山分校的研究人员共同推出了 LLaVA-Rad，这是一种新型的小型多模态模型（SMM），旨在提升临床放射学报告的生成效率。该模型的推出不仅标志着医学图像处理技术的一大进步，也为放射学的临床应用带来了更多的可能性。在生物医学领域，基于大规模基础模型的研究已经展现出良好的应用前景，尤其是在多模态生成 AI 的发展下，可以同时处理文本与图像，从而支持视觉问答

OpenBMB发布多模态模型MiniCPM-o2.6 手机也能进行视觉和语音处理

近年来，人工智能技术取得了显著进展，但在计算效率与多功能性之间仍然存在挑战。许多先进的多模态模型，如 GPT-4，通常需要大量的计算资源，这限制了它们在高端服务器上的使用，导致智能技术难以在智能手机和平板电脑等边缘设备上得到有效利用。此外，实时处理视频分析或语音转文本等任务仍面临技术障碍，突显出对高效、灵活的 AI 模型的需求，以便在有限的硬件条件下实现无缝运作。为了解决这些问题，OpenBMB 最近推出了 MiniCPM-o2.6，这款具有80亿参数架构的模型，旨在支持视

多模态模型新突破：李飞飞团队统一动作与语言，不仅超懂指令，还能读懂隐含情绪

李飞飞团队推出了一种新的多模态模型，该模型能够理解和生成人类的动作，并通过结合语言模型，实现了对口头和非口头语言的统一处理。这一突破性的研究，使得机器不仅可以理解人类的指令，还能读懂动作中蕴含的情绪，从而更自然地进行人机交互。该模型的核心在于其多模态语言模型框架，能够接收音频、动作和文本等多种形式的输入，并输出所需的模态数据。结合生成式预训练策略，该模型在多个任务上展现出卓越的性能。例如，在协同语音手势生成方面，该模型不仅超越了