Ein Forschungsteam des Illinois Institute of Technology, der Zhejiang University, der University of Central Florida und der University of Illinois at Chicago hat kürzlich das neue 3D-Szenen-Large-Language-Modell Robin3D vorgestellt.
Das Modell wurde mit einem umfangreichen Datensatz trainiert, der eine Million Anweisungsbefolgungsdaten umfasst, und erzielte in fünf gängigen 3D-Multimodal-Lernbenchmarks die derzeit beste Leistung. Dies stellt einen bedeutenden Fortschritt im Aufbau universeller 3D-Agenten dar.
Der Erfolg von Robin3D basiert auf seiner innovativen Daten-Engine RIG (Robust Instruction Generation). Die RIG-Engine zielt darauf ab, zwei wichtige Anweisungsdatentypen zu generieren: antagonistische Anweisungsbefolgungsdaten und diversifizierte Anweisungsbefolgungsdaten.
Antagonistische Anweisungsbefolgungsdaten verbessern die Unterscheidungs- und Verständnisfähigkeit des Modells durch die Mischung von positiven und negativen Beispielen, während diversifizierte Anweisungsbefolgungsdaten verschiedene Anweisungsstile enthalten, um die Generalisierungsfähigkeit des Modells zu verbessern.
Die Forscher weisen darauf hin, dass bestehende 3D-Large-Language-Modelle hauptsächlich auf positiven 3D-Bild-Sprach-Paarungen und vorlagenbasierten Anweisungen trainiert werden, was zu unzureichender Generalisierungsfähigkeit und Überanpassung führt. Robin3D umgeht diese Einschränkungen durch die Einführung antagonistischer und diversifizierter Anweisungsdaten.
Das Robin3D-Modell integriert außerdem einen relationsverstärkenden Projektor (RAP), ID-Merkmalsbindung (IFB) für Nennungen und Lokalisierung. Das RAP-Modul verstärkt objektzentrierte Merkmale durch reichhaltige szenenbasierte Kontext- und Positionsinformationen, während das IFB-Modul die Verbindung zwischen jedem ID und seinen entsprechenden Merkmalen stärkt.
Die Ergebnisse zeigen, dass Robin3D ohne spezielle Feinabstimmung für bestimmte Aufgaben in fünf Benchmarks (ScanRefer, Multi3DRefer, Scan2Cap, ScanQA und SQA3D) die bisherigen besten Methoden übertrifft.
Insbesondere bei der Multi3DRefer-Bewertung mit Null-Ziel-Fällen erzielte Robin3D eine deutliche Verbesserung um 7,8 % bei F1@0,25 und 7,3 % bei F1@0,5.
Die Veröffentlichung von Robin3D markiert einen bedeutenden Fortschritt bei 3D-Large-Language-Modellen in Bezug auf räumliche Intelligenz und legt ein solides Fundament für den Aufbau zukünftiger, universellerer und leistungsfähigerer 3D-Agenten.