Récemment, Giga Technology a présenté un nouveau framework appelé DriveDreamer4D, conçu pour améliorer la reconstruction de scènes de conduite 4D en utilisant les connaissances a priori des modèles du monde.
Les méthodes traditionnelles de reconstruction de scènes 4D reposent principalement sur deux approches : NeRF et 3DGS. NeRF est comparable à un peintre surdoué ; il utilise un réseau neuronal pour transformer un ensemble de photos en un modèle 3D. 3DGS, quant à lui, utilise un ensemble de fonctions gaussiennes tridimensionnelles pour simuler les différents objets d’une scène.
Cependant, ces deux méthodes présentent un défaut majeur : elles dépendent fortement des données d’entraînement ! C’est comme si vous n’aviez vu que des voitures roulant en ligne droite ; dès qu’il y a un dérapage en virage, vous êtes désemparé. Par conséquent, face à des conditions routières complexes, telles que les changements de voie, les accélérations et les décélérations, elles sont susceptibles d’échouer.
Pour résoudre ce problème, Giga Technology a déployé une arme redoutable : DriveDreamer4D. En termes simples, il s’agit d’ajouter un « plug-in » IA – un modèle du monde – à la reconstruction de scènes 4D.
Le modèle du monde peut être considéré comme un cerveau IA ; il peut prédire les événements futurs en fonction des données existantes. DriveDreamer4D utilise ce modèle du monde pour générer des données vidéo de nouveaux points de vue dans diverses conditions routières complexes. Cela revient à fournir au modèle de reconstruction de scènes 4D des données d’entraînement « imaginées », le rendant plus expérimenté et évitant les erreurs.
Plus impressionnant encore, DriveDreamer4D intègre un nouveau module de génération de trajectoires (NTGM). Ce module génère automatiquement diverses nouvelles trajectoires conformes aux règles de circulation, telles que les changements de voie, les accélérations et les décélérations, puis utilise le modèle du monde pour générer des vidéos des points de vue correspondants. Cela revient à fournir au modèle de reconstruction de scènes 4D un « entraîneur », lui permettant de gérer aisément diverses conditions routières complexes.
Les résultats expérimentaux ont démontré la puissance de DriveDreamer4D. Lors du traitement de conditions routières complexes, ses performances de reconstruction sont nettement supérieures aux méthodes traditionnelles. Les images générées sont plus fidèles et peuvent reproduire avec précision la position des véhicules et des voies.
En résumé, l’apparition de DriveDreamer4D est comme une bombe atomique dans le domaine de la reconstruction de scènes 4D, brisant directement les limites technologiques. Grâce à lui, la recherche et les tests de conduite autonome seront plus efficaces, plus sûrs et plus fiables.
Bien sûr, DriveDreamer4D est encore au stade de la recherche et il y a encore beaucoup de place à l’amélioration. Cependant, je crois qu’avec le développement continu de la technologie, il deviendra de plus en plus puissant et finira par devenir une partie intégrante du domaine de la conduite autonome.
Adresse de l’article : https://arxiv.org/pdf/2410.13571
Page du projet : https://drivedreamer4d.github.io/
Adresse du code : https://github.com/GigaAI-research/DriveDreamer4D