Colossal-AI开源了完整的Sora复现架构方案Open-Sora,声称可降低46%复现成本,并将模型训练输入序列长度扩充至819K patches。Sora算法复现方案在Sora的技术报告中,Sora使用了一个视频压缩网络将各种尺寸的视频压缩成一个隐空间的时空块序列,然后使用了Diffusion Transformer进行去噪,最后进行解码生成视频。Open-Sora将Sora可能使用的训练pipeline归纳为提供完整的Sora复现架构方案,包含从数据处理到训练推理全流程。目前Open-Sora已涵盖提供完整的Sora复现架构方案,包含从数据处理到训练推理全流程,支持动态分辨率,支持多种模型结构,支持多种视频压缩方法,支持多种并行训练优化。性能方面,在单台H800 SXM 8*80GB GPU上使用DiT-XL/2模型的性能测试为例,在600K的序列长度时,Open-Sora的方案比基线方案有40%以上的性能提升和成本降低。Open-Sora开源地址:https://github.com/hpcaitech/Open-Sora。