Une équipe de recherche de l'Illinois Institute of Technology, de l'Université de Zhejiang, de l'Université de Floride centrale et de l'Université de l'Illinois à Chicago a récemment publié un nouveau modèle linguistique de grande taille pour les scènes 3D : Robin3D.

Ce modèle a été entraîné sur un ensemble de données à grande échelle contenant un million d'instructions, et a obtenu les meilleures performances à ce jour sur cinq benchmarks d'apprentissage multimodaux 3D couramment utilisés. Cela représente une avancée majeure dans la construction d'agents 3D universels.

image.png

Le succès de Robin3D est dû à son moteur de données innovant, RIG (Robust Instruction Generation). Le moteur RIG est conçu pour générer deux types de données d'instructions clés : des données d'instructions contradictoires et des données d'instructions diversifiées.

Les données d'instructions contradictoires, en mélangeant des exemples positifs et négatifs, améliorent la capacité du modèle à distinguer et à comprendre. Les données d'instructions diversifiées, quant à elles, incluent divers styles d'instructions pour améliorer les capacités de généralisation du modèle.

image.png

Les chercheurs soulignent que les modèles linguistiques 3D existants reposent principalement sur des appariements positifs de langage visuel 3D et des instructions basées sur des modèles, ce qui entraîne un manque de capacité de généralisation et un risque de sur-apprentissage. Robin3D, grâce à l'introduction de données d'instructions contradictoires et diversifiées, surmonte efficacement ces limitations.

Le modèle Robin3D intègre également un projecteur d'augmentation de relations (RAP), une liaison de caractéristiques d'ID (IFB) pour la désignation et la localisation. Le module RAP améliore les caractéristiques centrées sur les objets grâce à un contexte et des informations de localisation riches au niveau de la scène, tandis que le module IFB renforce la connexion entre chaque ID et ses caractéristiques correspondantes en les liant.

image.png

Les résultats expérimentaux montrent que Robin3D, sans réglage fin pour des tâches spécifiques, surpasse les méthodes précédentes sur cinq benchmarks : ScanRefer, Multi3DRefer, Scan2Cap, ScanQA et SQA3D.

En particulier, dans l'évaluation Multi3DRefer incluant des cas d'objectifs nuls, Robin3D a réalisé une amélioration significative de 7,8 % et 7,3 % respectivement pour les métriques F1@0,25 et F1@0,5.

La publication de Robin3D marque une avancée majeure dans l'intelligence spatiale des modèles linguistiques 3D, jetant les bases de la construction future d'agents 3D plus universels et plus puissants.

Adresse de l'article : https://arxiv.org/pdf/2410.00255