被高估的Pika,被低估的多模态AI

甲子光年

发布于AI新闻资讯 · 1 分钟阅读 · 2023年12月11号 16:55

Pika 1.0 的宣传视频被一些用户认为是“炒作”,但不能否认,它们丰富了人们对多模态 AI 的想象力。多模态 AI 正处于爆发前夜,正走向场景化、实用化、商业化。Pika在技术上属于行业领先水平。Runway、Stability AI、Midjourney等公司也在布局AI视频生成赛道。多模态大模型有望打通物理世界和数字世界之间的屏障。

阿里发布多模态推理模型QVQ-72B！视觉、语言能力双提升，复杂问题迎刃而解

阿里巴巴近日推出了一款名为QVQ-72B的全新多模态推理模型，该模型基于Qwen2-VL-72B构建，融合了强大的语言和视觉能力，能够处理更为复杂的推理和分析任务，标志着阿里巴巴在多模态AI领域取得了新的突破。QVQ-72B在视觉推理、数学和科学问题上表现出了显著的提升，尤其是在多步推理任务中。这意味着该模型不仅能够理解文字信息，还能理解图像信息，并通过多步推理来解决复杂问题，这是传统AI模型难以企及的。该模型的一大亮点是其在物理问题中结合文字和视觉信息推导因果关系的能

李飞飞团队前瞻性研究多模态AI模型初显空间智能

有“AI教母”之称的斯坦福大学教授李飞飞及其团队近日发布了一项关于多模态大模型“空间智能”的研究，揭示这些模型在记忆和回忆空间方面已经具备初步能力，并展现出形成局部世界模型的潜力。研究团队开发了用于评估视觉空间智能能力的工具——VSI-Bench，其中包含超过5000个基于288个真实视频的高质量问答对。测试视频涵盖居住空间、专业场所及工业场景，涉及多个地理区域。研究结果显示，尽管多模态模型的总体表现尚低于人类，但在某些任务上已达到或接近人类水平。例如，

轻松搭建多模态AI应用！阿里云百炼大模型服务平台上线「音视频实时互动」功能

阿里云百炼大模型服务平台最近推出了“音视频实时互动”功能，使用户能够轻松搭建多模态AI应用，无需编程知识。这一新功能使得用户可以快速将AI模型集成到Web、iOS和Android应用中，并与他人分享。用户可以通过简单的步骤来搭建智能体应用:首先新建智能体应用，然后在阿里云百炼平台上选择并配置所需的文本、语音或视觉理解大模型。平台提供了200多种大模型，包括具备强大视觉智能体能力的阿里云Qwen2-VL大模型。接下来，用户需要编写提示词，设置音视频API-KEY，并发布自己的专属AI应用。

谷歌：AI智能体、多模态AI、企业搜索将在2025年占据主导地位

谷歌云近日发布了一份趋势报告，指出2025年企业将进入 AI 全面应用的新时代，AI 智能体、多模态 AI 以及企业搜索将成为主流趋势。报告中提到，2024年是 AI 实验的阶段，而2025年则是企业大规模应用 AI 的关键年。图源备注：图片由AI生成，图片授权服务商Midjourney在未来，AI 智能体将广泛嵌入企业内部，负责执行复杂的多步骤任务。根据 Capgemini 的研究，目前仅有10% 的大型企业在使用 AI 代理，但预计在未来三年内，82% 的企业计划整合这一技术。谷歌识别了六种类型的 AI 智能体，包括客户智

AI新闻资讯