Pendant longtemps, la génération efficace de scènes 3D de haute qualité et à large champ de vision à partir d'une seule image a constitué un défi de taille pour les chercheurs. Les méthodes traditionnelles reposent souvent sur des données multi-vues ou nécessitent une optimisation longue et fastidieuse par scène, avec des lacunes en termes de qualité de l'arrière-plan et de reconstruction des zones non visibles. Les techniques existantes, lors de la génération de scènes 3D à partir d'une seule vue, souffrent souvent d'un manque d'informations, entraînant des erreurs ou des distorsions dans les zones occultées, un arrière-plan flou et des difficultés à déduire la structure géométrique des zones non visibles. Les modèles basés sur la régression, bien qu'ils permettent une synthèse de nouvelles vues de manière directe, sont confrontés à d'énormes contraintes de mémoire et de calcul lors du traitement de scènes complexes, et sont donc souvent limités à la génération d'objets individuels ou à des scènes à champ de vision étroit.
Pour surmonter ces limitations, les chercheurs ont présenté une nouvelle technique nommée Wonderland. Wonderland est capable, à partir d'une seule image, de générer de manière directe et efficace une représentation de scène 3D de haute qualité basée sur un nuage de points (3DGS). Cette technique exploite les riches capacités de compréhension des scènes 3D inhérentes aux modèles de diffusion vidéo, et construit directement la représentation 3D à partir de l'espace latent vidéo, réduisant ainsi considérablement les besoins en mémoire. Le 3DGS est régressif à partir de l'espace latent vidéo de manière directe, ce qui accélère considérablement le processus de reconstruction. Les innovations clés de Wonderland incluent :
L'utilisation des connaissances a priori de génération des modèles de diffusion vidéo guidés par la caméra : contrairement aux modèles d'images, les modèles de diffusion vidéo sont entraînés sur d'énormes ensembles de données vidéo, capturant les relations spatiales complètes de la scène sous plusieurs angles de vue, et intégrant une forme de « perception 3D » dans leur espace latent, permettant ainsi de maintenir la cohérence 3D lors de la synthèse de nouvelles vues.
Un mécanisme conditionnel à double branche pour un contrôle précis du mouvement de la caméra : ce mécanisme intègre efficacement les différentes trajectoires de caméra souhaitées dans le modèle de diffusion vidéo, lui permettant d'étendre une seule image en une capture multi-vue cohérente de la scène 3D avec un contrôle précis de la pose.
La conversion directe de l'espace latent vidéo en 3DGS pour une reconstruction 3D efficace : un nouveau modèle de reconstruction à grande échelle basé sur l'espace latent (LaLRM) élève l'espace latent vidéo en 3D de manière directe. Comparé à la reconstruction de scènes à partir d'images, l'espace latent vidéo offre une compression spatio-temporelle 256 fois supérieure, tout en conservant les détails structurels 3D nécessaires et cohérents. Cette compression élevée est essentielle pour permettre au LaLRM de gérer un éventail plus large de scènes 3D dans le cadre de la reconstruction.
Wonderland, en exploitant les capacités de génération des modèles de diffusion vidéo, permet le rendu de scènes de haute qualité, à large champ de vision et plus diversifiées, pouvant même traiter des scènes dépassant la reconstruction au niveau des objets. Sa stratégie conditionnelle de caméra à double branche permet au modèle de diffusion vidéo de générer des captures de scènes multi-vues cohérentes en 3D avec un contrôle de pose plus précis. Dans un contexte de synthèse de nouvelles vues sans données d'apprentissage, Wonderland utilise une seule image comme entrée pour la reconstruction de scènes 3D directes, surpassant les méthodes existantes sur plusieurs ensembles de données de référence (tels que RealEstate10K, DL3DV et Tanks-and-Temples).
Le processus global de Wonderland est le suivant : d'abord, étant donné une seule image, un modèle de diffusion vidéo guidé par la caméra génère un espace latent vidéo doté de capacités de perception 3D en fonction de la trajectoire de la caméra. Ensuite, le modèle de reconstruction à grande échelle basé sur l'espace latent (LaLRM) utilise cet espace latent vidéo de manière directe pour construire la scène 3D. Le modèle de diffusion vidéo utilise un mécanisme conditionnel de caméra à double branche pour un contrôle précis de la pose. Le LaLRM fonctionne dans l'espace latent et reconstruit efficacement des scènes 3D vastes et hautement fidèles.
Les détails techniques de Wonderland sont les suivants :
Génération de l'espace latent vidéo guidé par la caméra : pour un contrôle précis de la pose, cette technique utilise l'intégration de Plücker au niveau des pixels pour enrichir les informations conditionnelles, et emploie un mécanisme conditionnel à double branche pour intégrer les informations de la caméra dans le modèle de diffusion vidéo afin de générer une scène statique.
Modèle de reconstruction à grande échelle basé sur l'espace latent (LaLRM) : ce modèle convertit l'espace latent vidéo en éclaboussures gaussiennes 3D (3DGS) pour la construction de la scène. Le LaLRM, en utilisant une architecture de transformateur pour régresser les attributs gaussiens, effectue une reconstruction à grande échelle de manière alignée sur les pixels, réduisant considérablement les coûts en mémoire et en temps par rapport aux stratégies d'optimisation par scène au niveau de l'image.
Stratégie d'entraînement progressive : pour faire face à l'écart important entre l'espace latent vidéo et les éclaboussures gaussiennes, Wonderland utilise une stratégie d'entraînement progressive, améliorant progressivement les performances du modèle en termes de source de données et de résolution d'image.
Les chercheurs ont vérifié l'efficacité de Wonderland par le biais d'expériences approfondies. En termes de génération vidéo guidée par la caméra, Wonderland surpasse les techniques existantes en termes de qualité visuelle, de précision du guidage de la caméra et de similarité visuelle. En termes de génération de scènes 3D, Wonderland surpasse également nettement les autres méthodes sur des ensembles de données de référence tels que RealEstate10K, DL3DV et Tanks-and-Temples. De plus, Wonderland a démontré de solides capacités en matière de génération de scènes en extérieur. Concernant la latence, Wonderland ne nécessite que 5 minutes pour générer une scène, dépassant de loin les autres méthodes.
Wonderland, en opérant dans l'espace latent et en combinant un guidage de pose de caméra à double branche, améliore non seulement l'efficacité de la reconstruction 3D, mais garantit également la génération de scènes de haute qualité, marquant une nouvelle avancée dans la génération de scènes 3D à partir d'une seule image.
Adresse de l'article : https://arxiv.org/pdf/2412.12091