阿里巴巴近日宣布,其最新首尾帧生成视频模型Wan2.1-FLF2V-14B正式开源,支持生成5秒720p高清视频。这一模型以其创新的首尾帧控制技术引发广泛关注,为AI视频生成领域带来全新可能性。据AIbase了解,该模型已于2025年2月在GitHub和Hugging Face平台上线,供全球开发者、研究者和商业机构免费使用,标志着阿里巴巴在开源AI生态建设中的又一重要里程碑。

image.png

核心功能:首尾帧驱动,生成流畅高清视频

Wan2.1-FLF2V-14B以首帧和尾帧作为控制条件,仅需用户提供两张图像,模型即可自动生成一段5秒、720p分辨率的视频。AIbase观察到,生成视频在运动流畅度和首尾帧过渡上表现优异,画面细节高度还原参考图像,整体内容一致性显著提升。相比传统视频生成模型,该模型通过精准的条件控制,解决了长序列视频生成中常见的画面抖动与内容漂移问题,为高质量视频创作提供了高效解决方案。

技术亮点:CLIP与DiT融合增强生成稳定性

据AIbase分析,Wan2.1-FLF2V-14B采用先进的首尾帧条件控制技术,核心在于以下创新:  

CLIP语义特征提取:通过CLIP模型提取首尾帧的语义信息,确保生成视频在视觉内容上与输入图像高度一致。  

交叉注意力机制:将首尾帧特征注入到Diffusion Transformer(DiT)的生成过程,增强画面稳定性和时间序列的连贯性。  

数据驱动训练:模型基于1.5亿视频和10亿图像的庞大数据集进行训练,支持生成符合真实物理规律的动态内容。  

这些技术结合使Wan2.1-FLF2V-14B在生成复杂运动场景时表现出色,尤其适合需要高保真过渡的创意应用场景。

广泛应用:赋能内容创作与研究

Wan2.1-FLF2V-14B的开源发布为多个领域带来了广阔的应用前景。AIbase梳理了其主要应用场景:  

影视与广告:快速生成高质量过渡视频,降低后期制作成本。  

游戏开发:为游戏场景生成动态过场动画,提升开发效率。  

教育与科研:支持研究人员探索视频生成技术,开发新型AI应用。  

个性化创作:普通用户可通过简单输入生成个性化短视频,丰富社交媒体内容。

值得一提的是,模型支持中文提示词生成,尤其在处理中文场景时效果更佳,展现了其对多语言环境的适配能力。

上手门槛:适配消费级硬件

Wan2.1-FLF2V-14B在硬件需求上展现了较高的普适性。AIbase了解到,尽管其14亿参数的规模较为庞大,但通过优化,模型可在配备RTX4090等消费级GPU的设备上运行,显存需求低至8.19GB。生成一段5秒480p视频仅需约4分钟,而720p视频的生成时间也保持在合理范围内。此外,模型提供详细的部署指南,用户可通过以下命令快速启动:  

python

python generate.py --task flf2v-14B --size1280*720--ckpt_dir ./Wan2.1-FLF2V-14B --first_frame examples/first.jpg --last_frame examples/last.jpg --prompt "A smooth transition from a sunny beach to a starry night"

开源社区还提供了Gradio-based web UI,进一步降低了非技术用户的上手难度。

社区反响与未来展望

自发布以来,Wan2.1-FLF2V-14B在开源社区引发热烈反响。开发者对其生成质量、硬件友好性及开源策略给予高度评价。AIbase注意到,社区已开始围绕模型展开二次开发,探索更复杂的视频编辑功能,如动态字幕生成与多语言配音。未来,阿里巴巴计划进一步优化模型,支持更高分辨率(如8K)与更长时长的视频生成,同时扩展其在视频到音频(V2A)等领域的应用。

项目地址:https://github.com/Wan-Video/Wan2.1