华为昇腾携手阶跃星辰推出开源多模态模型，进军 AI 新领域

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · 2025年3月10号 16:04

近日，魔乐社区（Modelers）正式上线了由阶跃星辰研发的 Step-Video 和 Step-Audio 两款开源多模态大模型。这两款模型分别用于视频生成和语音交互，旨在为开发者和企业用户提供更强大的 AI 工具。

Step-Video 模型的全名为 Step-Video-T2V，这是一款参数量高达300亿的全球最大开源视频生成模型。该模型能够直接生成204帧、540P 分辨率的高质量视频，并在指令遵循、运动平滑性、物理合理性以及美感等方面，表现超越了市场上现有的顶尖开源视频模型。另一方面，Step-Audio 则是业内首款能够生成多种情感、方言、语言、唱腔和个性化风格的语音的大模型。这一技术的发布，标志着 AI 语音交互领域的一次重要突破。

元宇宙科幻赛博朋克绘画 (4)大模型

图源备注：图片由AI生成，图片授权服务商Midjourney

值得一提的是，这些模型是基于华为昇腾 CANN 异构计算架构和昇腾服务器进行适配的。开发者和企业用户可以在魔乐社区中便捷地下载和体验这些模型。为了进一步降低使用门槛，魔乐社区还提供免费算力支持，让用户可以在线进行模型推理，而无需复杂的环境搭建，快速验证他们的 AI 方案。

此外，阶跃星辰的开源模型受到了多个行业标杆企业的关注，包括天数智芯、阿里云、火山引擎、TCL 等各行各业的厂商已纷纷接入这一开源生态。未来，阶跃星辰计划在3月份推出新的图生视频模型，进一步丰富其产品线。

华为昇腾与阶跃星辰的这一合作不仅拓展了多模态 AI 模型的应用场景，也为开发者提供了更为强大的工具，推动了整个行业的技术进步。

深圳发布具身智能机器人技术创新行动计划，聚焦多模态大模型构建

近日，深圳市科技创新局印发了《深圳市具身智能机器人技术创新与产业发展行动计划（2025-2027年）》，该计划旨在推动具身智能技术的全面发展。文件中明确提出，要构建具身智能基座以及垂直领域的大模型，标志着深圳在智能机器人领域迈出了重要一步。此次行动计划的核心在于基于世界模型以及视觉 - 触觉 - 语言 - 动作（VTLA）等多模态输入输出，开发出具备交互、预测和决策能力的具身智能大模型。这种模型不仅能够进行长序列推理(COT)，而且还具备自主学习的能力，使其能够在不

阿里开源视频生成模型Wan 2.1上线即屠榜 4070可流畅运行

近日，阿里巴巴在深夜推出了全新的开源视频生成模型 Wan2.1，该模型凭借14B 的参数量迅速占据了 VBench 榜单的顶端，成为目前视频生成领域的佼佼者。与此之前发布的 QwQ-Max 不同，Wan2.1在复杂运动的细节处理上表现出色，能够流畅地实现多个人物的同步舞蹈，令人惊叹不已。官方演示中，Wan2.1不仅成功克服了静态图像生成中的难题，如文字的处理更是达到了新的高度。对于普通用户来说，虽然14B 的参数在个人消费级显卡上部署较为困难，但阿里还特别推出了一个1.3B 的小版本，支持480P 分

通义万相开源视频生成模型Wan2.1：8.2G显存即可生成480P视频

近日，通义宣布开源其最新的通义万相大模型 Wan2.1。Wan2.1是一款专注于高质量视频生成的 AI 模型，凭借其在处理复杂运动、还原真实物理规律、提升影视质感以及优化指令遵循方面的卓越表现，成为了创作者、开发者和企业用户拥抱 AI 时代的首选工具。

阿里云魔搭首发上线阶跃星辰最新开源的两款多模态模型

全球开发者目光再次聚焦中国!在备受瞩目的全球开发者大会（GDC）上，阿里云魔搭社区重磅宣布，首发上线阶跃星辰最新开源的两款多模态模型，包括全球参数量最大的开源视频生成模型 Step-Video-T2V，以及业界首款产品级开源语音交互模型 Step-Audio。这一消息瞬间引爆全球AI开源社区，再次彰显中国在人工智能领域的强劲创新实力。作为中国最大的AI模型社区，阿里云魔搭社区此次发布的这两款重磅模型，无疑是近期全球多模态领域最受瞩目的开源成果。 Step-Video-T2V 以其巨大的参数规模