Récemment, une équipe de recherche de l'Université de Pékin et du Laboratoire Pengcheng a lancé HoloDreamer, un nouveau framework de génération de scènes 3D. Ce framework vise à générer des scènes 3D immersives et complètes à partir de descriptions textuelles fournies par l'utilisateur.
Ce framework comprend deux modules principaux : premièrement, la « génération de panoramas isométriques stylisés » qui permet de générer des panoramas de haute qualité à partir des invites de l'utilisateur ; deuxièmement, la « reconstruction panoramique améliorée en deux étapes » qui utilise la technique de projection gaussienne 3D pour reconstruire rapidement les panoramas et garantir la cohérence des points de vue de la scène générée.
Accès au projet : https://top.aibase.com/tool/holodreamer
Dans les industries de la réalité virtuelle, du jeu et du cinéma actuelles, la demande de génération de scènes 3D est de plus en plus forte. Grâce aux puissants modèles de diffusion texte-image, il est désormais possible de générer des scènes 3D à partir de simples descriptions textuelles. Cette avancée révolutionnaire stimulera la recherche sur la génération de scènes 3D pilotée par le texte.
Les méthodes précédentes généraient souvent des scènes en étendant des images, ce qui pouvait entraîner un manque de cohérence et d'intégralité de la scène. HoloDreamer, quant à lui, génère des panoramas haute définition comme base d'initialisation de la scène 3D, puis utilise la technique de projection gaussienne 3D pour reconstruire rapidement la scène 3D, générant ainsi une scène 3D complète et cohérente en termes de point de vue.
Plus précisément, le module « génération de panoramas isométriques stylisés » du framework combine plusieurs modèles de diffusion pour générer des panoramas stylisés et détaillés à partir d'invites textuelles complexes. De plus, le framework utilise une technique de mélange cyclique pour éviter les fissures lors de la rotation du panorama. Ensuite, le module « reconstruction panoramique améliorée en deux étapes » effectue une estimation de la profondeur et projette les données RGBD pour obtenir des informations de nuage de points.
En préparant deux types de caméras dans différents scénarios, l'équipe de recherche a pu superviser les ensembles d'images aux différentes étapes de l'optimisation de la projection gaussienne 3D, afin d'optimiser la scène reconstruite finale.
Après des expérimentations complètes, HoloDreamer a surpassé les résultats de recherches précédentes en termes de cohérence visuelle, d'harmonie, de qualité de reconstruction et de robustesse du rendu. Ce framework innovant devrait jouer un rôle important dans les applications futures, offrant des expériences de scènes 3D plus riches.
Points clés :
🌟 HoloDreamer est un nouveau framework de génération de scènes 3D qui génère des scènes 3D complètes à partir de descriptions textuelles.
🖼️ Le framework comprend deux modules : la génération de panoramas stylisés et la reconstruction panoramique améliorée, garantissant la haute qualité et la cohérence des résultats générés.
🚀 HoloDreamer a obtenu d'excellents résultats lors des expérimentations, surpassant les méthodes de génération 3D précédentes et offrant de nouvelles solutions pour la réalité virtuelle et les jeux vidéo.