Une équipe de recherche de l'Université technique de Prague en République tchèque et de l'École polytechnique fédérale de Zurich en Suisse a récemment présenté une méthode innovante appelée "WildGaussians", qui améliore considérablement les capacités de la technique de pulvérisation gaussienne 3D (3DGS) pour le traitement d'ensembles d'images non structurées. Cette avancée majeure permet la reconstruction 3D de haute qualité à partir d'ensembles d'images non structurées, tels que des photos de points de repère collectées sur Internet.
WildGaussians s'attaque principalement à deux défis clés : les variations d'apparence et d'éclairage, ainsi que l'occlusion des objets en mouvement. L'équipe de recherche a relevé ces défis en développant deux composants clés : la modélisation de l'apparence et la modélisation de l'incertitude.
La modélisation de l'apparence permet au système de traiter des images prises dans des conditions différentes (par exemple, à des moments ou par temps différents). La méthode utilise des plongements entraînables pour chaque image d'entraînement et distribution gaussienne, et ajuste la couleur de la distribution gaussienne à l'aide d'un réseau neuronal multicouche (MLP) pour s'adapter aux conditions de prise de vue correspondantes.
La modélisation de l'incertitude aide à identifier et à ignorer les objets occlusifs tels que les piétons ou les voitures pendant l'entraînement. Les chercheurs ont utilisé les caractéristiques pré-entraînées de DINOv2 pour améliorer l'adaptabilité du système aux changements de paysage.
En termes de performances, WildGaussians a excellé sur des ensembles de données difficiles tels que NeRF On-the-go et Photo Tourism, surpassant les méthodes de pointe existantes en termes de qualité. Simultanément, la méthode a atteint une vitesse de rendu en temps réel de 117 images par seconde sur un GPU Nvidia RTX 4090.
Bien que WildGaussians ait réalisé des progrès significatifs dans le domaine de la reconstruction 3D, les chercheurs reconnaissent que la méthode présente encore certaines limitations, telles que la représentation des reflets spéculaires sur les objets. Ils prévoient d'améliorer cette méthode à l'avenir en intégrant des techniques telles que les modèles de diffusion.
Cette recherche ouvre de nouvelles possibilités pour une reconstruction 3D robuste, polyvalente et photoréaliste à partir de données utilisateur bruitées, et devrait avoir un impact profond sur plusieurs domaines, notamment la réalité virtuelle, la réalité augmentée et la vision par ordinateur.