Pippo est un modèle génératif développé en collaboration entre Meta Reality Labs et plusieurs universités. Il permet de générer des vidéos haute résolution multi-vues à partir d'une simple photo, sans nécessiter d'entrée supplémentaire (comme des modèles paramétriques ou des paramètres de caméra). Son principal atout réside dans la génération de vidéos de qualité en résolution 1K. Basé sur une architecture de transformateur de diffusion multi-vues, il offre des perspectives d'application vastes, notamment dans la réalité virtuelle et la production cinématographique. Le code de Pippo est open source, mais les poids pré-entraînés ne sont pas inclus ; les utilisateurs doivent donc entraîner le modèle eux-mêmes.