Meta présente Pippo : génération d'images haute résolution multi-vues à partir d'une seule image

AIbase基地

Publié leActualités IA · 3 minutes de lecture · Feb 17, 2025

363

Récemment, l'équipe de recherche de Meta Reality Labs a publié en collaboration un modèle génératif innovant appelé "Pippo", capable de générer une vidéo dense de haute résolution (jusqu'à 1K) à partir d'une simple photo. Cette avancée technologique marque une étape importante dans le domaine de la vision par ordinateur et de la génération d'images.

Le cœur du modèle Pippo réside dans sa conception de transformateur de diffusion multi-vues. Contrairement aux modèles génératifs traditionnels, Pippo ne nécessite aucune entrée supplémentaire, comme des paramètres de modèle ajustés ou des paramètres de caméra utilisés pour prendre la photo. L'utilisateur n'a qu'à fournir une photo ordinaire, et le système générera automatiquement une vidéo multi-vues, offrant une représentation plus vivante et tridimensionnelle du sujet.

Pour faciliter son utilisation par les développeurs, Pippo est publié en version code uniquement, sans poids pré-entraînés. L'équipe de recherche fournit le modèle nécessaire, les fichiers de configuration, le code d'inférence et le code d'entraînement d'échantillons de l'ensemble de données Ava-256. Les développeurs peuvent cloner et configurer le référentiel de code via de simples commandes pour rapidement commencer l'entraînement et l'application.

Les projets futurs pour Pippo incluent l'organisation et le nettoyage du code, ainsi que le lancement de scripts d'inférence pour les modèles pré-entraînés. Ces améliorations amélioreront encore l'expérience utilisateur et favoriseront l'utilisation généralisée de cette technologie dans les applications concrètes.

Projet : https://github.com/facebookresearch/pippo

Points clés :
🌟 Le modèle Pippo peut générer une vidéo multi-vues haute résolution à partir d'une simple photo, sans entrée supplémentaire.
💻 Seul le code est publié, sans poids pré-entraînés. Les développeurs peuvent entraîner le modèle eux-mêmes et l'utiliser.
🔍 L'équipe prévoit de lancer de nouvelles fonctionnalités et améliorations pour améliorer l'expérience utilisateur.

Lidwave lève 10 millions de dollars pour améliorer la vision par ordinateur avec ses puces 4D LiDAR

Lidwave a récemment annoncé avoir levé 10 millions de dollars pour améliorer les capacités de vision par ordinateur, notamment pour des applications critiques telles que la détection des piétons dans des environnements encombrés. Le PDG de Lidwave, Yehuda Vidal, a déclaré lors d'une interview que leur technologie innovante 4D LiDAR, qui intègre des capteurs LiDAR complexes sur une seule puce, représente une révolution technologique qui permettra également de réduire les coûts et d'élargir le marché. Note : l'image provient du site Web de Lidwave. Ce tour de financement a été mené par Jump...

Vidu lance la fonction « Référence principale » pour résoudre les problèmes de cohérence des personnages dans les vidéos générées par l'IA

Vidu, le premier grand modèle vidéo entièrement auto-développé en Chine, développé conjointement par Shengshu Technology et l'Université Tsinghua, lance une nouvelle fonction « Référence principale » qui résout le problème de la cohérence des personnages dans les vidéos générées par l'IA. Après le téléchargement d'une image de sujet quelconque, Vidu peut garantir la cohérence de la génération de ce sujet dans différents scénarios, applicable aux personnes, animaux, produits, personnages de dessins animés, etc. Cette fonction est disponible gratuitement et marque l'entrée d'une nouvelle ère pour la création vidéo par IA. À l'avenir, Vidu explorera un contrôle plus précis de l'interaction entre plusieurs sujets, de l'uniformité du style et de la commutation stable entre plusieurs scénarios variables, afin de répondre à des besoins plus complexes.

Le marché chinois des logiciels d'IA a atteint 37,74 milliards de yuans en 2023, Baidu Smart Cloud se hisse au premier rang du marché de la voix et de la sémantique IA

En 2023, le marché chinois des logiciels d'intelligence artificielle a atteint 37,74 milliards de yuans, soit une croissance de 26,2 % en glissement annuel. Le marché de la vision par ordinateur a atteint 10,11 milliards de yuans, SenseTime étant le leader. Sur le marché de la voix et de la sémantique IA, Baidu Smart Cloud s'est classé premier pour la première fois, suivi de près par iFlytek et Alibaba Cloud. Le marché des plateformes de développement d'apprentissage automatique a atteint 3,51 milliards de yuans, la quatrième paradigme et Huawei Cloud se partageant la première place. Le marché se concentre sur les technologies de grands modèles pour soutenir le développement des applications d'IA générative.

Stability AI lance Stable Video 4D : un modèle génératif qui transforme une vidéo unique en plusieurs vues

Stability AI a récemment annoncé une technologie révolutionnaire de traitement vidéo : Stable Video 4D. Cette technologie permet de convertir une vidéo à partir d'un seul point de vue en huit vidéos sous des angles différents, offrant aux créateurs une flexibilité et une créativité sans précédent. Stable Video 4D s'appuie sur le modèle Stable Video Diffusion précédemment lancé par la société. Contrairement à la conversion d'images en vidéos, le nouveau modèle peut recevoir une vidéo en entrée et générer ...