阿里云魔搭首发上线阶跃星辰最新开源的两款多模态模型

AIbase基地

发布于AI新闻资讯 · 1 分钟阅读 · Feb 21, 2025

217

全球开发者目光再次聚焦中国!在备受瞩目的全球开发者大会（GDC）上，阿里云魔搭社区重磅宣布，首发上线阶跃星辰最新开源的两款多模态模型，包括 全球参数量最大的开源视频生成模型 Step-Video-T2V，以及 业界首款产品级开源语音交互模型 Step-Audio。这一消息瞬间引爆全球AI开源社区，再次彰显中国在人工智能领域的强劲创新实力。

作为中国最大的AI模型社区，阿里云魔搭社区此次发布的这两款重磅模型，无疑是近期全球多模态领域最受瞩目的开源成果。 Step-Video-T2V 以其巨大的参数规模，一举刷新了开源视频生成模型的记录，预示着更高质量、更精细化的视频内容创作即将成为现实。而 Step-Audio 则突破了传统语音模型的局限，成为业界首个产品级开源语音交互系统，意味着更自然、更智能的语音交互技术将加速普及应用。

音频声波智能语音

图源备注：图片由AI生成，图片授权服务商Midjourney

据官方介绍，截至目前，阿里云魔搭社区已汇聚超过 4万个开源模型，全面覆盖了包括大语言模型（LLM）、对话系统、语音技术、文生图、图生视频等多个前沿领域，稳坐中国最大AI模型社区的头把交椅。此次选择在魔搭社区开源这两款极具分量的模型，不仅是对魔搭社区平台实力的肯定，也体现了阶跃星辰对开源生态建设的积极贡献。

在GDC这一全球开发者瞩目的舞台上发布如此重要的开源成果，无疑向世界展示了中国AI技术的蓬勃发展态势和开放合作姿态。这两款模型的开源，将极大地降低AI技术的使用门槛，加速全球人工智能技术的普及和发展。

阿里云魔搭 Step-Video-T2V Step-Audio 多模态模型

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

AI日报：淘宝全平台启动AI假图治理；OpenAI官宣支持MCP协议；阿里开源全模态模型Qwen2.5-Omni

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、阿里通义千问开源发布新一代端到端多模态模型Qwen2.5-Omni阿里云通义千问团队推出了Qwen2.5-Omni，这是一个新一代的多模态旗舰模型，旨在实现文本、图像、音频和视频的无缝处理。这项技术为视频生成领域带来了新的发展机遇，尤其是在文本到视频生成等应用场景中，展现了巨大的潜力。

2025年3月27号 15:23

310

阿里通义千问开源发布新一代端到端多模态模型Qwen2.5-Omni

阿里云通义千问Qwen团队宣布推出Qwen模型家族中的新一代端到端多模态旗舰模型——Qwen2.5-Omni。这一全新模型专为全方位多模态感知而设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。

2025年3月27号 8:21

2.9k

阿里推出全新多模态模型 Qwen2.5-VL-32B：兼顾视觉语言与数学推理

在人工智能领域，阿里巴巴再次带来了重磅消息。近日，阿里开源了最新的多模态模型 ——Qwen2.5-VL-32B-Instruct。这款新模型是 Qwen2.5系列中的一员，其他版本包括3B、7B 和72B，而32B 版本在保持性能的同时，更加注重便捷的本地运行体验。Qwen2.5-VL-32B 经过强化学习的优化，在多个方面表现出色。首先，它的回答更加符合人类的认知习惯，这意味着用户在与模型互动时，将能获得更自然和流畅的交流体验。其次，这款模型在数学推理能力方面的提升也十分显著。无论是复杂的数学题还是几何体

2025年3月25号 10:03

2.3k

AI日报：重磅！阿里新夸克升级为“AI超级框”；谷歌开源多模态模型Gemma-3；潞晨科技开源视频大模型Open-Sora 2.0

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解：https://top.aibase.com/1、阿里巴巴推出AI旗舰应用“新夸克”全面升级为“AI超级框”阿里巴巴于3月13日推出了其全新升级的AI旗舰应用——新夸克。预计到2025年，智谱将推出多款开源大模型，助力AI行业的发展，同时推动珠海的AI产业生态建设。

2025年3月13号 15:22

710

谷歌开源新一代多模态模型 Gemma-3：性能卓越、成本降低 10 倍

谷歌 CEO 桑达尔・皮查伊（Sundar Pichai）在一场发布会上宣布，谷歌开源了最新的多模态大模型 Gemma-3，该模型以低成本、高性能为特点，备受关注。Gemma-3提供了四种不同参数规模的选项，分别为10亿、40亿、120亿和270亿参数。令人惊讶的是，最大参数的270亿模型只需一张 H100显卡即可高效推理，而同类模型往往需要十倍的算力，这使 Gemma-3成为目前算力要求最低的高性能模型之一。根据最新的测试数据，Gemma-3在各类对话模型的评比中表现不俗，仅次于知名的 DeepSeek 模型，超越了 OpenAI 的 o3-m

2025年3月13号 8:52

2.1k

阿里通义团队开源 R1-Omni：多模态模型实现音视频信息透明化

在人工智能领域，阿里通义实验室团队近日宣布开源其最新研发的多模态模型 ——R1-Omni。这一模型结合了强化学习与可验证奖励（RLVR）方法，展现出了在处理音频和视频信息方面的卓越能力。R1-Omni 的亮点在于其透明性，让我们得以更清晰地理解各模态在决策过程中的作用，尤其是在情绪识别等任务中。随着 DeepSeek R1的推出，强化学习在大模型的应用潜力被不断挖掘。RLVR 方法为多模态任务带来了新的优化思路，能够有效处理几何推理、视觉计数等复杂任务。尽管目前的研究多集中于图像

2025年3月12号 10:16

2.0k

华为昇腾携手阶跃星辰推出开源多模态模型，进军 AI 新领域

近日，魔乐社区（Modelers）正式上线了由阶跃星辰研发的 Step-Video 和 Step-Audio 两款开源多模态大模型。这两款模型分别用于视频生成和语音交互，旨在为开发者和企业用户提供更强大的 AI 工具。Step-Video 模型的全名为 Step-Video-T2V，这是一款参数量高达300亿的全球最大开源视频生成模型。该模型能够直接生成204帧、540P 分辨率的高质量视频，并在指令遵循、运动平滑性、物理合理性以及美感等方面，表现超越了市场上现有的顶尖开源视频模型。另一方面，Step-Audio 则是业内首款能够生成多种情

2025年3月10号 16:04

2.4k

华科字节推出 Liquid：重新定义多模态模型的生成与理解

近年来，大语言模型（LLM）在人工智能领域取得了显著进展，尤其是在多模态融合方面。华中科技大学、字节跳动与香港大学的联合团队最近提出了一种新型的多模态生成框架 ——Liquid，旨在解决当前主流多模态模型在视觉处理上的局限性。传统的多模态大模型依赖复杂的外部视觉模块，这不仅增加了系统的复杂性，还限制了其扩展性。Liquid 的创新之处在于，它采用 VQGAN 作为图像分词器，摒弃了对外部视觉组件的依赖，通过将图像编码为离散的视觉 token，使得模型可以直接与文本 token 共

2025年3月4号 9:41

1.7k

效果最佳！阶跃星辰开源Step-Video-T2V 视频生成模型

今日，阶跃星辰与吉利汽车集团宣布，联合开源两款阶跃Step系列多模态大模型——Step-Video-T2V视频生成模型和Step-Audio语音模型。其中，阶跃Step-Video-T2V视频生成模型在参数量和性能上均处于全球领先水平。该模型拥有300亿参数量，能够直接生成204帧、540P分辨率的高质量视频，确保生成内容信息密度高、一致性强。评测结果显示，Step-Video-T2V在指令遵循、运动平滑性、物理合理性、美感度等方面均表现出色，显著超越市面上既有的最佳开源视频模型。

2025年2月18号 8:55

4.2k

小而强！微软发布小型模型LLaVA-Rad，实现精准放射学报告生成

近日，微软研究院联合华盛顿大学、斯坦福大学、南加州大学、加利福尼亚大学戴维斯分校以及加利福尼亚大学旧金山分校的研究人员共同推出了 LLaVA-Rad，这是一种新型的小型多模态模型（SMM），旨在提升临床放射学报告的生成效率。该模型的推出不仅标志着医学图像处理技术的一大进步，也为放射学的临床应用带来了更多的可能性。在生物医学领域，基于大规模基础模型的研究已经展现出良好的应用前景，尤其是在多模态生成 AI 的发展下，可以同时处理文本与图像，从而支持视觉问答

2025年2月10号 9:46

2.1k

AI资讯

AI日报

AI时间线

最新案例

图片合集

视频合集

音频合集

文案合集

最新教程

AI产品排行榜

AI产品流量增速榜

AI产品流量下降榜

AI产品周榜

美国

中国

印度

巴西

图片生成

个人助理

角色生成网站

视频生成

AI项目榜单

AI项目增速榜

AI开发者排名

AI组织排名

deepseek

TTS

LLM

ChatGPT

全景图