近日,人工智能公司 Rhymes AI 正式开源其先进的文本生成视频模型 Allegro。Allegro 允许用户将简单的文字描述转换为高质量的短视频片段,为人工智能生成视频领域的创作者、开发者和研究人员开辟了新的可能性。

Allegro 可以根据用户提供的文字提示生成6秒、15帧/秒、分辨率为720p 的高质量视频,涵盖了各种电影主题,从人物和动物的特写到各种场景的动作,几乎可以实现任何基于文本描述的场景。

Allegro 的核心技术包括大规模视频数据处理、将原始视频压缩为视觉token以及扩展视频扩散Transformer。

大规模视频数据处理方面,Rhymes AI 设计了系统的数据处理和过滤管道,从原始数据中提取训练视频,并开发了一个结构化数据系统,对数据进行多维分类和聚类,以便于模型训练和微调。

压缩视频为视觉token方面,Allegro 使用视频变分自动编码器(VideoVAE)将原始视频压缩成更小的视觉token,在保留必要细节的同时,实现更流畅、更高效的视频生成。VideoVAE 建立在预先训练的图像 VAE 之上,并扩展了时空建模层,有效地利用空间压缩能力。

扩展视频扩散Transformer方面,Allegro 的核心是其扩展的扩散Transformer架构,它应用扩散模型生成高分辨率视频帧,确保视频运动的质量和流畅性。Allegro 的主干网络建立在 DiT(扩散Transformer)架构之上,具有3D RoPE 位置嵌入和3D 全注意力机制。与使用UNet架构的传统扩散模型相比,Transformer 结构更有利于模型扩展。通过利用3D 注意力机制,DiT 可以同时处理视频帧的空间维度及其时间演化,从而对运动和上下文有更细致的理解。

Rhymes AI 表示,Allegro 只是开始,团队正在积极开发更先进的功能,包括图像到视频的生成、运动控制以及对更长、基于叙事的、故事板风格视频生成的支持。

为了使人工智能驱动的视频创作更容易被更广泛的用户所接受,Rhymes AI 将 Allegro 的模型权重和代码全部开源,并鼓励社区探索、释放创造力,并在此基础上进行构建,以期在人工智能生成视频技术方面取得协作性进展。

项目地址:https://github.com/rhymes-ai/Allegro