ODINモデル

単一モデルで2Dおよび3Dの知覚を実現

一般製品画像コンピュータビジョンインスタンスセグメンテーション
ODIN(Omni-Dimensional INstance segmentation)は、トランスフォーマーアーキテクチャを用いて、2D RGB画像と3D点群のセグメンテーションとラベリングを行うモデルです。2Dビューと3Dビュー間で情報を交互に融合させることで、2Dと3Dの特徴操作を区別します。ODINは、ScanNet200、Matterport3D、AI2THOR 3Dインスタンスセグメンテーションベンチマークにおいて最先端の性能を達成し、ScanNet、S3DIS、COCOにおいても競争力のある性能を示しています。知覚された3D点群の代わりに3Dメッシュからサンプリングされた点群を使用した場合、従来の手法をすべて上回ります。具体化エージェントアーキテクチャにおける3D知覚エンジンとして活用することで、TEACh対話行動ベンチマークにおいて新たな最先端レベルを達成しました。コードとチェックポイントはプロジェクトウェブサイトでご確認いただけます。
ウェブサイトを開く

ODINモデル 最新のトラフィック状況

月間総訪問数

29742941

直帰率

44.20%

平均ページ/訪問

5.9

平均訪問時間

00:04:44

ODINモデル 訪問数の傾向

ODINモデル 訪問地理的分布

ODINモデル トラフィックソース

ODINモデル 代替品