イリノイ工科大学、浙江大学、中央フロリダ大学、イリノイ大学シカゴ校の研究チームは、最新の3Dシーン大規模言語モデル「Robin3D」を発表しました。
このモデルは、100万件以上の指示に従うデータを含む大規模データセットでトレーニングされ、5つの一般的な3Dマルチモーダル学習ベンチマークテストで最先端の性能を達成しました。これは、汎用的な3Dエージェント構築に向けた大きな進歩を示しています。
Robin3Dの成功は、革新的なデータエンジンRIG(Robust Instruction Generation)によるものです。RIGエンジンは、敵対的な指示追従データと多様な指示追従データという2つの重要な指示データを生成するように設計されています。
敵対的な指示追従データは、正負のサンプルを混合することでモデルの識別理解能力を高め、多様な指示追従データは様々な指示スタイルを含めることでモデルの汎化能力を高めます。
研究者らは、既存の3D大規模言語モデルは主に肯定的な3Dビジュアル言語ペアとテンプレートベースの指示を用いたトレーニングに依存しており、そのため汎化能力の不足と過剰適合のリスクがあると指摘しています。Robin3Dは、敵対的かつ多様な指示データを取り入れることで、これらの限界を効果的に克服しています。
Robin3Dモデルは、関係強化プロジェクター(RAP)とID特徴バインディング(IFB)による指示と位置特定機能も統合しています。RAPモジュールは、豊富なシーンレベルのコンテキストと位置情報を使用してオブジェクト中心の特徴を強化し、IFBモジュールは各IDとその対応する特徴をバインドすることで、それらの間の接続を強化します。
実験結果によると、Robin3Dは、特定のタスクに対する微調整なしで、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dを含む5つのベンチマークテストですべてにおいて従来の最先端手法を上回りました。
特に、ゼロターゲットケースを含むMulti3DRefer評価では、Robin3DはF1@0.25とF1@0.5指標でそれぞれ7.8%と7.3%の大幅な向上を達成しました。
Robin3Dの発表は、3D大規模言語モデルが空間知能において大きな進歩を遂げたことを示しており、より汎用的で強力な3Dエージェントを構築するための堅実な基盤を築きました。