最近,潞晨 Open-Sora 团队在720p 高清文生视频质量和生成时长上实现了突破性进展,他们不仅在720p高清视频质量和生成时长上搞了个大新闻,还顺手把这宝贝开源了,让整个社区都沸腾了!
毫不夸张地说,他们的开源项目让视频生成变得像点外卖一样简单。自从3月份亮相以来,它在GitHub上已经揽获了17.5K的星星,火得一塌糊涂!
开源地址:https://github.com/hpcaitech/Open-Sora
Open-Sora能够一键生成16秒720p高清视频,无论是精致的人物肖像,还是炫酷的科幻大片,亦或是生动有趣的动画,流畅的变焦效果,它都能轻松应对。这不,连英伟达入股的AI公司Lambda Labs都基于Open-Sora模型权重,打造了一个数字乐高宇宙,让乐高迷们找到了创意的新天地。
潞晨团队不仅开源了模型权重,还在GitHub上晒出了技术路线,让每个玩家都能成为视频大模型的掌控者。这份技术报告,深度剖析了模型训练的核心和关键,从视频压缩网络到扩散模型算法,再到可控性,他们用1.1B的扩散生成模型,解决了视频模型训练的痛点。
报告地址:https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md
视频压缩网络的引入,是OpenAI的Sora同款方法。它能在时间维度上进行4倍压缩,无需抽帧,可以使用原始FPS生成视频。团队还提出了一个简单的视频压缩网络(即VAE),它能首先在空间维度上实现8x8倍的压缩,再从时间维度上压缩4倍。
Stable Diffusion3的最新扩散模型,通过rectified flow技术,提升了生成质量。潞晨团队提供的技术包括整流训练、Logit-norm时间步长采样等,加快了模型训练速度,减少了推理等待时间。
报告中还透露了模型训练的核心细节,包括数据清洗、模型调优技巧,以及模型评估体系的构建。他们甚至提供了一键部署的Gradio应用,支持多种参数调节。
潞晨Open-Sora的开源,打破了闭环,为文生视频的创新和发展注入了活力。用户从内容消费者转变为创造者,企业用户解锁了自主开发新技能。