ODINモデル
単一モデルで2Dおよび3Dの知覚を実現
一般製品画像コンピュータビジョンインスタンスセグメンテーション
ODIN(Omni-Dimensional INstance segmentation)は、トランスフォーマーアーキテクチャを用いて、2D RGB画像と3D点群のセグメンテーションとラベリングを行うモデルです。2Dビューと3Dビュー間で情報を交互に融合させることで、2Dと3Dの特徴操作を区別します。ODINは、ScanNet200、Matterport3D、AI2THOR 3Dインスタンスセグメンテーションベンチマークにおいて最先端の性能を達成し、ScanNet、S3DIS、COCOにおいても競争力のある性能を示しています。知覚された3D点群の代わりに3Dメッシュからサンプリングされた点群を使用した場合、従来の手法をすべて上回ります。具体化エージェントアーキテクチャにおける3D知覚エンジンとして活用することで、TEACh対話行動ベンチマークにおいて新たな最先端レベルを達成しました。コードとチェックポイントはプロジェクトウェブサイトでご確認いただけます。
ODINモデル 最新のトラフィック状況
月間総訪問数
29742941
直帰率
44.20%
平均ページ/訪問
5.9
平均訪問時間
00:04:44