开源版Sora？潞晨Open-Sora技术路线大公开，一键生成720p高清视频，质量飞跃，成本跳水

最近，潞晨 Open-Sora 团队在720p 高清文生视频质量和生成时长上实现了突破性进展，他们不仅在720p高清视频质量和生成时长上搞了个大新闻，还顺手把这宝贝开源了，让整个社区都沸腾了!

毫不夸张地说，他们的开源项目让视频生成变得像点外卖一样简单。自从3月份亮相以来，它在GitHub上已经揽获了17.5K的星星，火得一塌糊涂!

开源地址:https://github.com/hpcaitech/Open-Sora

Open-Sora能够一键生成16秒720p高清视频，无论是精致的人物肖像，还是炫酷的科幻大片，亦或是生动有趣的动画，流畅的变焦效果，它都能轻松应对。这不，连英伟达入股的AI公司Lambda Labs都基于Open-Sora模型权重，打造了一个数字乐高宇宙，让乐高迷们找到了创意的新天地。

潞晨团队不仅开源了模型权重，还在GitHub上晒出了技术路线，让每个玩家都能成为视频大模型的掌控者。这份技术报告，深度剖析了模型训练的核心和关键，从视频压缩网络到扩散模型算法，再到可控性，他们用1.1B的扩散生成模型，解决了视频模型训练的痛点。

报告地址：https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md

视频压缩网络的引入，是OpenAI的Sora同款方法。它能在时间维度上进行4倍压缩，无需抽帧，可以使用原始FPS生成视频。团队还提出了一个简单的视频压缩网络（即VAE），它能首先在空间维度上实现8x8倍的压缩，再从时间维度上压缩4倍。

Stable Diffusion3的最新扩散模型，通过rectified flow技术，提升了生成质量。潞晨团队提供的技术包括整流训练、Logit-norm时间步长采样等，加快了模型训练速度，减少了推理等待时间。

报告中还透露了模型训练的核心细节，包括数据清洗、模型调优技巧，以及模型评估体系的构建。他们甚至提供了一键部署的Gradio应用，支持多种参数调节。

潞晨Open-Sora的开源，打破了闭环，为文生视频的创新和发展注入了活力。用户从内容消费者转变为创造者，企业用户解锁了自主开发新技能。

AI新闻资讯