潞晨科技推全新开源视频模型Open-Sora 2.0 训练流程全开源

还在为动辄百万美金的视频生成模型望而却步?还在感叹AI视频创作只是巨头的游戏?今天，开源社区用实力告诉你: “No!” 一款名为 Open-Sora2.0的全新开源模型横空出世，彻底颠覆了视频生成的“氪金”规则。难以置信的是，这款性能直逼商业级水准的110亿参数大模型，竟然只花费了区区20万美元（224张GPU）就训练成功! 要知道，那些动辄耗资数百万美元的闭源模型，在 Open-Sora2.0面前，性价比简直弱爆了!

Open-Sora2.0的发布，无疑是视频生成领域的一场“平民革命”。它不仅拥有媲美甚至超越百万美元级模型的强悍实力，更以前所未有的开放姿态，将模型权重、推理代码、训练流程全盘托出，彻底打开了高质量视频创作的 “潘多拉魔盒”。这意味着，曾经高不可攀的AI视频生成技术，如今已触手可及，人人都有机会参与这场激动人心的创作浪潮!

GitHub 开源仓库:https://github.com/hpcaitech/Open-Sora

1. 硬核实力:眼见为实，数据说话

1.1效果炸裂!Open-Sora2.0视频Demo先睹为快

口说无凭，眼见为实! Open-Sora2.0的生成效果到底有多惊艳? 直接上Demo视频，让各位 “验验货”:

运镜如神!动作幅度精准拿捏: 无论是人物的细腻动作，还是场景的宏大调度，Open-Sora2.0都能如同专业导演一般，精准控制运动幅度，画面表现力直接拉满!

画质爆表!流畅度堪比丝滑:720p高清分辨率，24FPS稳定帧率，Open-Sora2.0生成的视频，清晰度、流畅度都无可挑剔，完全超越市面上同类产品，视觉体验直接“起飞”!

场景百变!驾驭能力全面开花: 田园风光、都市夜景、科幻宇宙…… 各种复杂场景，Open-Sora2.0都能信手拈来，画面细节丰富到令人发指，相机运镜更是流畅自然，简直是“AI界的达芬奇”!

1.2参数规模“以小博大”，性能直逼闭源巨头

Open-Sora2.0并非“花架子”，而是拥有真材实料的“技术硬核”。仅仅110亿的参数规模，却迸发出惊人的能量，在权威评测平台 VBench 和用户主观评测中，都取得了足以叫板 HunyuanVideo 和30B Step-Video 等闭源巨头的卓越成绩，堪称 “以小博大” 的典范!

用户说了算!偏好性评测力压群雄: 在视觉效果、文本一致性、动作表现三大维度上，Open-Sora2.0至少有两项指标超越了开源 SOTA 模型 HunyuanVideo，甚至将 Runway Gen-3Alpha 等商业模型斩落马下，用实力证明了 “低成本也能有好货”!

VBench榜单“实力认证”，性能逼近天花板: 在视频生成领域最权威的 VBench 榜单上，Open-Sora2.0的进步速度堪称“火箭蹿升”。从1.2版本到2.0版本，它与 OpenAI Sora 闭源模型之间的性能差距，从4.52% 直接缩减到0.69%，几乎可以忽略不计! 更令人振奋的是，Open-Sora2.0在 VBench 评测中得分，已经超越了腾讯 HunyuanVideo，再次证明其 “低投入，高产出” 的巨大优势，为开源视频生成技术树立了新的里程碑!

2. 低成本炼成记:开源背后的技术密码

Open-Sora 自开源以来，就凭借其高效、优质的视频生成能力，迅速成为开源社区的“当红炸子鸡”。但随之而来的挑战是:如何打破高质量视频生成 “成本高企” 的魔咒，让更多人能够参与进来? Open-Sora 团队迎难而上，通过一系列技术创新，硬生生将模型训练成本砍掉了5-10倍! 要知道，市面上动辄百万美元的训练费用，Open-Sora2.0用区区20万美元就搞定了，简直是 “开源界的性价比之王”!

Open-Sora 不仅开源了模型代码和权重，还慷慨地 공개 了全流程训练代码，构建起了一个充满活力的开源生态。短短半年时间，Open-Sora 的学术论文引用量就逼近百次，在全球开源影响力榜单上名列前茅，超越了所有开源 I2V/T2V 视频生成项目，成为当之无愧的 “开源视频生成领头羊”。

2.1模型架构:传承与创新并举

Open-Sora2.0在模型架构上，既传承了1.2版本的精髓，又进行了大胆创新: 延续了3D 自编码器和 Flow Matching 训练框架，并保留了多桶训练机制，确保模型能够 “兼容并蓄”，处理各种长度和分辨率的视频。同时，又引入了多项 “黑科技”，让视频生成能力更上一层楼:

3D 全注意力机制加持: 更精准地捕捉视频中的时间和空间信息，让生成的视频画面更连贯、细节更丰富。

MMDiT 架构“神助攻”: 更准确地理解文本指令和视频内容之间的关联，让文生视频的语义表达更精准、更到位。

模型规模扩容至11B: 更大的模型容量，意味着更强的学习能力和生成潜力，视频质量自然水涨船高。

FLUX 模型“打底”，训练效率“起飞”: 借鉴开源图生视频模型 FLUX 的成功经验，进行模型初始化，大幅降低了训练时间和成本，让模型训练效率 “坐上火箭”。

2.2高效训练秘籍:开源全流程，助力成本“狂降”

为了将训练成本压到 “地板价”，Open-Sora2.0在数据、算力、策略等方面都做足了功课，堪称 “开源界的省钱专家”:

数据“精挑细选”，质量“万里挑一”: Open-Sora 团队深知 “garbage in， garbage out” 的道理，对训练数据进行 “地毯式” 筛选，确保每一份数据都是 “精品”，从源头上提升模型训练效率。多阶段、多层次的数据筛选机制，配合各种 “黑科技” 过滤器，让视频数据质量更上一层楼，为模型训练提供了最优质的 “燃料”。

算力“精打细算”，低分辨率训练“打头阵”: 高分辨率视频训练的成本，远高于低分辨率视频，二者之间的算力差距，最高可达40倍! Open-Sora2.0巧妙地避开了 “硬碰硬”，优先进行低分辨率训练，高效学习视频中的运动信息，在大幅降低成本的同时，确保模型能够掌握视频生成的 “核心技能”，可谓 “事半功倍”。

策略“灵活多变”，图生视频“曲线救国”: Open-Sora2.0并没有一开始就 “死磕” 高分辨率视频训练，而是采取了更聪明的 “迂回战术” —— 优先训练图生视频模型，加速模型收敛速度。事实证明，图生视频模型在提升分辨率时，收敛速度更快，训练成本更低，可谓 “一箭双雕”。在推理阶段， Open-Sora2.0还支持 “文生图再生视频” （T2I2V）模式，用户可以先通过文本生成高质量图像，再将图像转化为视频，获得更精细的视觉效果， “条条大路通罗马”。

并行训练“火力全开”，算力利用率“榨干最后一滴”: Open-Sora2.0深知 “单丝不成线，独木不成林” 的道理，采用了高效的并行训练方案，将 ColossalAI 和系统级优化技术 “武装到牙齿”，最大程度提升计算资源利用率，让 GPU 集群 “火力全开”，实现更高效的视频生成训练。一系列 “黑科技” 加持，让 Open-Sora2.0的训练效率 “坐上火箭”，成本大幅降低:

序列并行 + ZeroDP: 优化大规模模型分布式计算效率，实现 “人多力量大”。

细粒度 Gradient Checkpointing: 在降低显存占用的同时，保持计算效率，实现 “开源节流”。

训练自动恢复机制: 确保99% 以上有效训练时间，减少资源浪费，实现 “稳定可靠”。

高效数据加载 + 内存管理: 优化 I/O，防止训练阻塞，加速训练流程，实现 “一路狂飙”。

异步模型保存: 减少模型存储对训练干扰，提高 GPU 利用率，实现 “一心多用”。

算子优化: 针对关键计算模块深度优化，加速训练过程，实现 “提速增效”。

这些优化措施 “组合拳” 下来， Open-Sora2.0在高性能和低成本之间找到了完美平衡，大幅降低了高质量视频生成模型的训练门槛，让更多人能够参与到这场技术盛宴中来。

2.3高压缩比 AE “神助攻”，推理速度“再提速”

训练成本降下来还不够，推理速度也要跟上! Open-Sora2.0瞄准未来，探索高压缩比视频自编码器（AE）的应用，进一步降低推理成本，提升视频生成速度。目前主流视频模型采用4×8×8自编码器，生成768px、5秒视频，单卡耗时近30分钟，推理效率亟待提升。 Open-Sora2.0训练了一款高压缩比 (4×32×32) 的视频自编码器，将推理时间缩短至单卡3分钟以内，速度提升了10倍! 简直是 “光速” 生成!

高压缩比编码器虽好，训练难度却极大。 Open-Sora 团队迎难而上，在视频升降采样模块中引入残差连接，成功训练出重建质量媲美 SOTA 视频压缩模型，且压缩比更高的 VAE，为高效推理奠定了坚实基础。为了解决高压缩比自编码器训练数据需求大、收敛难度高等问题， Open-Sora 还提出了基于蒸馏的优化策略，并利用已训练好的高质量模型进行初始化，减少数据和时间需求。同时，重点训练图生视频任务，利用图像特征引导视频生成，加速高压缩自编码器收敛，最终实现了推理速度和生成质量的 “双赢”。

Open-Sora 团队坚信，高压缩比视频自编码器将是未来视频生成技术发展的关键方向。目前初步实验结果已展现出惊人的推理加速效果，他们希望借此吸引更多社区力量，共同探索高压缩比视频自编码器的潜力，推动高效、低成本视频生成技术更快发展，让 AI 视频创作真正 “飞入寻常百姓家”。

3. 开源集结号!共赴AI视频革命新征程

今天，Open-Sora2.0正式开源! 我们诚挚邀请全球开发者、科研机构、AI 爱好者加入 Open-Sora 社区，携手共建，共同推动 AI 视频革命的浪潮滚滚向前，让视频创作的未来，更加开放、普惠、精彩!

GitHub 开源仓库:https://github.com/hpcaitech/Open-Sora

技术报告:

https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf