Récemment, l'équipe de recherche de Meta Reality Labs a publié en collaboration un modèle génératif innovant appelé "Pippo", capable de générer une vidéo dense de haute résolution (jusqu'à 1K) à partir d'une simple photo. Cette avancée technologique marque une étape importante dans le domaine de la vision par ordinateur et de la génération d'images.
Le cœur du modèle Pippo réside dans sa conception de transformateur de diffusion multi-vues. Contrairement aux modèles génératifs traditionnels, Pippo ne nécessite aucune entrée supplémentaire, comme des paramètres de modèle ajustés ou des paramètres de caméra utilisés pour prendre la photo. L'utilisateur n'a qu'à fournir une photo ordinaire, et le système générera automatiquement une vidéo multi-vues, offrant une représentation plus vivante et tridimensionnelle du sujet.
Pour faciliter son utilisation par les développeurs, Pippo est publié en version code uniquement, sans poids pré-entraînés. L'équipe de recherche fournit le modèle nécessaire, les fichiers de configuration, le code d'inférence et le code d'entraînement d'échantillons de l'ensemble de données Ava-256. Les développeurs peuvent cloner et configurer le référentiel de code via de simples commandes pour rapidement commencer l'entraînement et l'application.
Les projets futurs pour Pippo incluent l'organisation et le nettoyage du code, ainsi que le lancement de scripts d'inférence pour les modèles pré-entraînés. Ces améliorations amélioreront encore l'expérience utilisateur et favoriseront l'utilisation généralisée de cette technologie dans les applications concrètes.
Projet : https://github.com/facebookresearch/pippo
Points clés :
🌟 Le modèle Pippo peut générer une vidéo multi-vues haute résolution à partir d'une simple photo, sans entrée supplémentaire.
💻 Seul le code est publié, sans poids pré-entraînés. Les développeurs peuvent entraîner le modèle eux-mêmes et l'utiliser.
🔍 L'équipe prévoit de lancer de nouvelles fonctionnalités et améliorations pour améliorer l'expérience utilisateur.