Meta 近日重磅发布 Movie Gen,这款堪称"元宇宙版 Sora"的 AI 视频生成模型,不仅能一键创作高质量视频,还能为视频配音、编辑剪辑,甚至将个人照片变成个性化视频。

image.png

随着92页技术报告的同步公开,Movie Gen 的强大功能和先进架构引发业界广泛关注。

Movie Gen Video:高清视频生成的革新

Movie Gen 由两大核心模型组成:Movie Gen Video 和 Movie Gen Audio。其中,Movie Gen Video 是一个拥有300亿参数的 Transformer 模型,可根据文本提示生成1080P 分辨率、16秒长、每秒16帧的高清视频。

image.png

主要功能:

文本生成视频:通过简单文本输入创作高质量定制视频

视频编辑:精确修改现有视频的风格和内容

个性化视频:将个人照片转化为动态视频

音频生成:为视频配音、添加音效和背景音乐

该模型借鉴了 Llama3的架构设计,并采用"流匹配"技术,在视频精度和细节表现上超越了传统的扩散模型。

从演示效果看,Movie Gen生成的视频在画面质量、光影效果和动作流畅度上都达到极高水准。人物面部稳定、动物毛发逼真、背景细节丰富,令人惊叹。音频生成同样出色,不仅能创作符合场景氛围的背景音乐,还能精准匹配视频动作节点。

Movie Gen Audio:同步音频生成的突破

Movie Gen Audio 则是一个130亿参数的模型,能为视频生成48kHz 的高质量配音和音乐。它不仅可以生成与视频同步的音效,还能创作符合场景氛围的背景音乐,甚至实现长达数分钟的连贯音频制作。

个性化视频:创造独一无二的内容

在功能方面,Movie Gen 展现了惊人的多样性和灵活性。用户可以通过简单的文本输入生成定制视频,编辑现有视频的风格和内容,甚至上传个人照片生成独特的个性化视频。这些功能使 Movie Gen 成为目前最先进的媒体基础模型之一。

Meta 公布的演示视频令人印象深刻。从雷雨交加的山景到海滩上放风筝的小女孩,再到戴着粉色太阳镜的树懒,Movie Gen 生成的视频在画面质量、光影效果和动作流畅度上都达到了极高水准。

更令人惊叹的是,它还能将普通照片转化为动态视频,如将小扎的照片变成健身视频。

QQ20241005-114628.png

技术上,Movie Gen采用多项创新:

基于Llama3的Transformer架构

流匹配训练方法提升视频质量

多阶段训练流程优化性能

Llama3辅助提示词重写提升生成质量

创新的视频编辑和音频扩展技术

尽管 Movie Gen 目前仍处于"期货"状态,预计要到明年才会向公众开放,但它的发布已经在业界引发巨大反响。有评论认为,Meta 此举不仅抢在了 OpenAI 之前发布类似 Sora 的产品,还可能激发其他公司加速推出下一代 AI 视频技术。

参考资料:https://x.com/AIatMeta/status/1842188252541043075

官网地址:https://ai.meta.com/research/movie-gen/