L'Institut de recherche sur l'intelligence artificielle de Beijing (BAAI) a récemment annoncé le lancement de See3D, un modèle de génération 3D innovant capable d'apprendre à partir de vidéos Internet non annotées à grande échelle. Cette percée technologique marque une étape importante vers le concept « Voir une vidéo, obtenir une 3D ». See3D ne dépend pas des paramètres de caméra traditionnels, mais utilise une technique de conditionnement visuel pour générer, à partir des indices visuels de la vidéo uniquement, des images multi-vues géométriquement cohérentes avec une direction de caméra contrôlable. Cette méthode évite le besoin coûteux d'annotations 3D ou de caméra, permettant un apprentissage efficace des a priori 3D à partir de vidéos Internet.

See3D prend en charge la génération 3D à partir de texte, d'une seule vue et de vues clairsemées, et permet l'édition 3D et le rendu gaussien. Le modèle, le code et la démo sont open source, permettant de consulter des détails techniques plus poussés. Les exemples de résultats de See3D incluent le déblocage de mondes interactifs 3D, la reconstruction 3D à partir d'images clairsemées, la génération 3D de mondes ouverts et la génération 3D à partir d'une seule vue. Ces fonctionnalités confèrent à See3D une grande applicabilité dans diverses applications de création 3D.

微信截图_20241210151417.png

La motivation de la recherche provient des limitations des données 3D. L'acquisition traditionnelle de données 3D est longue et coûteuse, tandis que les vidéos, grâce à leur association multi-vues et à l'information sur le mouvement de la caméra, constituent un outil puissant pour révéler les structures 3D. La solution proposée par See3D comprend la construction d'un ensemble de données, l'entraînement du modèle et un cadre de génération 3D. L'équipe a automatiquement filtré les données vidéo pour construire l'ensemble de données WebVi3D, comprenant 16 millions de segments vidéo et 320 millions d'images. See3D génère des signaux visuels 2D purs en ajoutant un bruit dépendant du temps aux données vidéo masquées, permettant l'entraînement d'un modèle de diffusion multi-vues extensible et réalisant une génération 3D sans condition de caméra.

Les avantages de See3D résident dans l'extensibilité des données, le contrôle de la caméra et la cohérence géométrique. Ses données d'entraînement proviennent de vidéos Internet massives, et l'ensemble de données multi-vues construit représente une augmentation significative de l'échelle. Le modèle prend en charge la génération de scènes sous des trajectoires de caméra arbitrairement complexes, tout en maintenant la cohérence géométrique entre les vues successives.

En augmentant l'échelle des données, See3D offre de nouvelles perspectives pour le développement des techniques de génération 3D. L'équipe espère que ce travail encouragera la communauté de recherche 3D à se concentrer sur les données à grande échelle sans annotation de caméra, réduira le coût d'acquisition de données 3D et réduira l'écart avec les solutions 3D propriétaires existantes.

Adresse du projet : https://vision.baai.ac.cn/see3d