Pika 1.0 的宣传视频被一些用户认为是“炒作”,但不能否认,它们丰富了人们对多模态 AI 的想象力。多模态 AI 正处于爆发前夜,正走向场景化、实用化、商业化。Pika在技术上属于行业领先水平。Runway、Stability AI、Midjourney等公司也在布局AI视频生成赛道。多模态大模型有望打通物理世界和数字世界之间的屏障。
Pika 1.0 的宣传视频被一些用户认为是“炒作”,但不能否认,它们丰富了人们对多模态 AI 的想象力。多模态 AI 正处于爆发前夜,正走向场景化、实用化、商业化。Pika在技术上属于行业领先水平。Runway、Stability AI、Midjourney等公司也在布局AI视频生成赛道。多模态大模型有望打通物理世界和数字世界之间的屏障。
有“AI教母”之称的斯坦福大学教授李飞飞及其团队近日发布了一项关于多模态大模型“空间智能”的研究,揭示这些模型在记忆和回忆空间方面已经具备初步能力,并展现出形成局部世界模型的潜力。研究团队开发了用于评估视觉空间智能能力的工具——VSI-Bench,其中包含超过5000个基于288个真实视频的高质量问答对。测试视频涵盖居住空间、专业场所及工业场景,涉及多个地理区域。研究结果显示,尽管多模态模型的总体表现尚低于人类,但在某些任务上已达到或接近人类水平。例如,
阿里云百炼大模型服务平台最近推出了“音视频实时互动”功能,使用户能够轻松搭建多模态AI应用,无需编程知识。这一新功能使得用户可以快速将AI模型集成到Web、iOS和Android应用中,并与他人分享。用户可以通过简单的步骤来搭建智能体应用:首先新建智能体应用,然后在阿里云百炼平台上选择并配置所需的文本、语音或视觉理解大模型。平台提供了200多种大模型,包括具备强大视觉智能体能力的阿里云Qwen2-VL大模型。接下来,用户需要编写提示词,设置音视频API-KEY,并发布自己的专属AI应用。
谷歌云近日发布了一份趋势报告,指出2025年企业将进入 AI 全面应用的新时代,AI 智能体、多模态 AI 以及企业搜索将成为主流趋势。报告中提到,2024年是 AI 实验的阶段,而2025年则是企业大规模应用 AI 的关键年。图源备注:图片由AI生成,图片授权服务商Midjourney在未来,AI 智能体将广泛嵌入企业内部,负责执行复杂的多步骤任务。根据 Capgemini 的研究,目前仅有10% 的大型企业在使用 AI 代理,但预计在未来三年内,82% 的企业计划整合这一技术。谷歌识别了六种类型的 AI 智能体,包括客户智
近日,OpenAI 宣布从竞争对手 Google DeepMind 引入三名资深计算机视觉和机器学习工程师,进一步加强其在人工智能领域的研发能力。这三位新员工分别是 Lucas Beyer、Alexander Kolesnikov 和 Xiaohua Zhai,他们将于在瑞士苏黎世的新办公室工作。OpenAI 的高管在周二的内部备忘录中透露了这一消息,表示这三位工程师的加入将为公司的多模态 AI 项目注入新的活力。多模态 AI 是指能够处理和理解不同媒介(如图像和音频)的人工智能模型。随着 AI 技术的快速发展,如何将不同类型的数据进行有效融合,