Open-Sora Plan又升级了!最新发布的Open-Sora Plan v1.2版本引入新的3D全注意力架构,提升了对物理世界的理解能力。

本次更新主要亮点:

全新3D全注意力架构:新架构让AI对物理世界的理解能力有了质的飞跃。不再是只会平面思考的"二维码",现在它能360度无死角理解这个立体世界啦!

文本生成视频能力升级:你敲下一段文字,AI就能为你呈现出栩栩如生的视频画面。

清晰度和一致性双双提升:通过新架构和优化的VAE结构,Open-Sora生成的视频画质更清晰,内容更连贯。告别模糊不清!

空间与时间的完美融合:新的3D全注意力架构解决了之前版本的一大难题——同时处理空间和时间维度。这意味着什么?意味着生成的视频在空间表现和时间流畅度上都将有显著提升!

推理速度大幅提升:优化后的CausalVideoVAE结构不仅提高了模型的性能,还让推理速度快得飞起。效率党们欢呼吧!

image.png

回顾一下Open-Sora的发展历程,我们会发现它的进步速度令人惊叹。就在2024年5月,v1.1.0版本还在使用2+1D模型架构,主要用于探索性训练。而现在,短短几个月后,它就进化成了能创造3D世界的"造物主"!这速度,怕是连达尔文看了都要惊呼:"进化论要改写啦!"

最帅的是,Open-Sora团队不藏私!代码、数据、模型统统开源,就差把"如何创造世界"的说明书贴你脸上了。他们的目标很简单:让每个人都能成为视频创作的"上帝"!这种开放共享的态度,无疑会加速AI视频生成技术的进步。

Open-Sora Plan v1.2.0的发布标志着视频生成模型迈入了一个新的时代。它不仅在视觉表示压缩和推理效率上有了显著提升,更为未来的发展指明了方向。

项目地址:https://top.aibase.com/tool/open-sora-plan-v1-2