近日,Meta Reality Labs 的研究团队联合高效发布了一项名为 “Pippo” 的创新性生成模型,能够从一张随意拍摄的照片中,生成一段高达1K 分辨率的密集周转视频。这一突破性技术,标志着计算机视觉和图像生成领域的又一重要进展。

QQ_1739759486317.png

Pippo 模型的核心在于其多视图扩散转换器的设计。与传统的生成模型不同,Pippo 不需要任何额外的输入,例如拟合的参数模型或拍摄该图像的相机参数。用户只需提供一张普通的照片,系统就能自动生成多视角的视频效果,为用户呈现出更加生动和立体的人物形象。

为了便于开发者使用,Pippo 此次发布为代码 - only 版本,没有预训练权重。研究团队提供了必要的模型、配置文件、推理代码以及 Ava-256数据集的样本训练代码。开发者可以通过简单的命令克隆和设置代码库,快速上手进行训练和应用。

Pippo 项目的未来计划包括整理和清理代码,以及推出针对预训练模型的推理脚本。这些改进将进一步提升用户体验,推动该技术在实际应用中的广泛使用。

项目:https://github.com/facebookresearch/pippo

划重点:

🌟 Pippo 模型能够从一张普通照片生成高分辨率的多视图视频,无需额外输入。  

💻 代码仅发布,没有预训练权重,开发者可自行训练模型并进行应用。  

🔍 团队计划未来推出更多功能和改进,以增强用户体验。