人工智能(AI)驱动的视频生成技术正快速发展,近日,一款名为 Pusa 的开源视频模型引起了业界的关注。该模型基于领先的开源视频生成系统 Mochi 进行微调,不仅展现了尚可的效果,更重要的是,完全开源了包括训练工具、数据集在内的整个微调过程,且训练成本仅为约100美元,为视频生成领域的研究和应用带来了新的可能性。

QQ_1744595106005.png

基于Mochi微调,初步展现视频生成能力

Pusa-V0.5是 Pusa 模型的早期预览版本,其基础模型是 Artificial Analysis Leaderboard 上领先的开源视频生成系统 Mochi1-Preview。通过对 Mochi 进行微调,Pusa 能够支持多种视频生成任务,包括 文本到视频生成、图像到视频转换、帧插值、视频过渡、无缝循环、扩展视频生成等。尽管目前生成的视频分辨率相对较低(480p),但其在运动保真度和提示遵循性方面表现出了潜力。

完全开源微调流程,助力社区共同发展

Pusa 项目最引人注目的特点之一是其完全开源性。开发者不仅可以获取 完整的代码库和详细的架构规范,还能了解到 全面的训练方法。这意味着研究人员和开发者可以深入了解 Pusa 的微调过程,复现实验,并在此基础上进行进一步的创新和改进。这种开放的态度无疑将极大地促进社区的合作与发展。

令人惊讶的低成本训练

与动辄花费数万甚至数十万美元训练的大型视频模型相比,Pusa 的训练成本显得格外引人注目。据介绍,Pusa 仅使用了 16块 H800GPU,在约500次迭代后完成训练,总训练时长仅0.1k H800GPU 小时,总成本约为0.1k 美元(即100美元)。如此低的训练成本,为更多研究机构和个人开发者参与到视频模型的研究和开发中提供了机会。项目团队也表示,通过单节点训练和更高级的并行技术,效率还可以进一步提高。

Pusa 采用了帧级噪声控制与向量化时间步的新颖扩散范式,这一方法最初在 FVDM 论文中提出,为视频扩散建模带来了前所未有的灵活性和可扩展性。此外,Pusa 对基础模型进行的调整是非破坏性的,这意味着它保留了原始 Mochi 的文本到视频生成能力,只需进行轻微的微调即可。

项目:https://top.aibase.com/tool/pusa