Récemment, Tencent a fait un nouveau pas significatif dans le domaine de l'intelligence artificielle avec le lancement officiel de son nouveau modèle d'IA, GeometryCrafter, par son équipe de recherche via la plateforme Hugging Face. Ce modèle, remarquable pour sa capacité à estimer la géométrie de manière cohérente dans des vidéos d'environnements ouverts, est rapidement devenu un sujet central dans le monde de la technologie. Grâce à la technologie des priorités de diffusion (Diffusion Priors), GeometryCrafter ouvre de nouvelles perspectives pour la compréhension et le traitement en profondeur des contenus vidéo, offrant aux créateurs et aux chercheurs une véritable « clé » pour explorer le monde en trois dimensions.
Le principal atout de GeometryCrafter réside dans sa capacité à extraire et générer des informations géométriques cohérentes à partir de vidéos dynamiques et complexes d'environnements ouverts. Ces « vidéos d'environnements ouverts » sont des vidéos riches en contenu, avec des changements de scènes fréquents et des variations de points de vue, comme des enregistrements de rue, des journaux de voyage ou des documentaires sur la nature. Contrairement à l'estimation géométrique d'images statiques traditionnelles, ces vidéos exigent des modèles d'IA une cohérence spatio-temporelle et une capacité de généralisation accrues. L'équipe Tencent a réussi à combiner des modèles de diffusion pré-entraînés avec l'estimation géométrique vidéo, permettant à GeometryCrafter de générer des séquences de profondeur et des structures géométriques détaillées et cohérentes sans informations supplémentaires (comme la pose de la caméra ou les données de flux optique).

Selon les informations fournies, le développement de ce modèle s'inspire du succès des modèles de diffusion dans le domaine de la génération d'images. La technologie des priorités de diffusion, grâce à un processus de dé-bruitage progressif, permet de capturer les subtiles relations entre les images d'une vidéo et de convertir ces informations en une représentation géométrique de l'espace tridimensionnel. Que ce soit le mouvement incessant des piétons dans une rue de ville ou les jeux d'ombre et de lumière dans un paysage naturel, GeometryCrafter restitue avec une précision étonnante la hiérarchie spatiale. Cette capacité permet non seulement aux contenus vidéo de « prendre vie » en trois dimensions, mais aussi de poser les bases solides pour des applications futures telles que les effets visuels et la génération de contenus de réalité virtuelle.
Des experts du secteur soulignent que le lancement de GeometryCrafter comble une lacune dans le domaine de l'estimation géométrique des vidéos d'environnements ouverts. Auparavant, de nombreux modèles, lorsqu'ils traitaient de longues séquences vidéo ou de scènes non contrôlées, produisaient souvent des résultats déformés faute d'une compréhension contextuelle suffisante. GeometryCrafter, grâce à sa stratégie d'entraînement en trois phases combinant des ensembles de données réels et synthétiques, préserve à la fois la richesse et la diversité du contenu et assure la précision des détails géométriques. Les résultats expérimentaux montrent que le modèle surpasse les méthodes existantes sur plusieurs ensembles de données publiques, notamment en termes de cohérence sur de longues séquences, faisant de lui une référence dans le secteur.

Pour les utilisateurs et les créateurs, l'importance de GeometryCrafter est également considérable. Imaginez : les scènes d'enfants courant dans vos vidéos familiales pourraient être enrichies d'une profondeur tridimensionnelle grâce à cette technologie, et même intégrées de manière transparente à des scènes virtuelles. Ou encore, un cinéaste indépendant pourrait utiliser GeometryCrafter pour transformer des images simples en une expérience visuelle immersive. Le choix de Tencent de rendre le code et les poids du modèle open source sur Hugging Face témoigne de sa volonté de promouvoir l'accessibilité des technologies de l'IA, permettant à un plus grand nombre de personnes de participer à l'exploration et à l'application de cette technologie.
Bien sûr, GeometryCrafter n'est pas parfait. Certains analystes mentionnent que ses exigences en termes de ressources de calcul pourraient poser problème aux appareils ordinaires, et que les performances du modèle pourraient encore être améliorées dans des scénarios extrêmement complexes (comme les foules denses ou les objets en mouvement rapide). Mais il est indéniable que cette technologie nous ouvre une nouvelle fenêtre, nous permettant d'entrevoir comment l'IA peut transformer des fragments de la vie quotidienne en œuvres d'art numériques pleines de relief.
Avec GeometryCrafter, Tencent démontre une fois de plus son solide savoir-faire et son esprit d'innovation dans le domaine de l'IA. De la reconstruction géométrique des contenus vidéo aux applications interdisciplinaires potentielles, ce modèle n'est pas seulement une avancée technologique, mais aussi une invitation chaleureuse : une invitation à chacun d'utiliser la puissance de la technologie pour redécouvrir et façonner le monde coloré dans lequel nous vivons.
Article : https://huggingface.co/papers/2504.01016