動画処理の分野において、単眼ビデオから3次元運動を効率的に追跡することは、特に長シーケンスのピクセルレベルの正確な追跡が必要な場合、長年の課題でした。従来の手法は多くの課題に直面しており、多くの場合、少数のキーポイントしか追跡できず、シーン全体の詳細な理解を実現することができませんでした。

image.png

さらに、既存技術は計算コストが高く、長尺動画の処理において効率性を維持することが困難です。また、長時間追跡を行うと、カメラの移動や物体の遮蔽などの問題の影響を受け、追跡ミスやエラーが発生する可能性があります。

現在、ビデオシーケンスの運動推定手法にはそれぞれ長所と短所があります。オプティカルフロー技術は高密度のピクセル追跡を提供しますが、複雑なシーン、特に長シーケンスの処理では、堅牢性に欠けます。

シーンフローはオプティカルフローの拡張であり、RGB-Dデータまたは点群を使用して高密度の3次元運動を推定しますが、長シーケンスでは依然として効率的な適用が困難です。点追跡法は運動軌跡を捉えることができ、空間的および時間的な注意機構を組み合わせてより滑らかな追跡を実現しますが、計算コストが高いため、高密度監視を実現するのは困難です。さらに、再構成ベースの追跡手法は変形場を使用して運動を推定しますが、リアルタイムアプリケーションでは実用性がありません。

60f40d8292cd71591253b91a2794ffee.png

最近、マサチューセッツ大学アマースト校、MIT-IBMワトソン人工知能研究所、Snap Inc.の研究チームは、3次元空間の各ピクセルを効率的に追跡するために設計されたDELTA(Dense Efficient Long-range 3D Tracking for Any video)という手法を発表しました。DELTAは低解像度追跡から開始し、時空間注意機構を採用し、注意機構ベースのアップサンプラーを適用することで、高解像度の精度を実現します。その主要な革新には、鮮明な運動境界のためのアップサンプラー、効率的な空間注意アーキテクチャ、追跡性能を向上させる対数深度表現が含まれます。

DELTAはCVOおよびKubric3Dデータセットで最先端の結果を達成し、平均Jaccard(AJ)や3次元平均位置誤差(APD3D)などの指標で10%以上の向上を示し、TAP-Vid3DやLSFOdysseyなどの3次元点追跡ベンチマークでも優れた性能を発揮しました。既存の手法とは異なり、DELTAは大規模で高密度な3次元追跡を実現し、従来の手法よりも8倍以上の高速化を実現しながら、業界をリードする精度を維持しています。

実験により、DELTAは3次元追跡タスクにおいて優れた性能を発揮し、速度と精度において従来の手法を上回ることが示されました。DELTAは5600本以上の動画を含むKubricデータセットで訓練され、その損失関数は2D座標、深度、視認性損失を組み合わせたものです。

ベンチマークテストでは、DELTAは長距離2D追跡と高密度3D追跡において、それぞれCVOとKubric3Dで最高スコアを獲得し、他の手法よりもはるかに高速にタスクを完了しました。対数深度表現、空間注意機構、注意機構ベースのアップサンプラーなどのDELTAの設計上の選択は、様々な追跡シーンにおける精度と効率を大幅に向上させています。

DELTAは、ビデオフレーム内の各ピクセルを追跡できる効率的な手法であり、高密度2Dおよび3D追跡において、精度と高速な実行時間を達成しました。この手法は、長時間の遮蔽のある点では課題に直面する可能性があり、数百フレーム以下の短い動画で最高の性能を発揮します。DELTAの3次元追跡精度は、使用される単眼深度推定の精度と時間的安定性に依存します。単眼深度推定の研究の進展により、この手法の性能がさらに向上すると予想されます。

プロジェクト入口:https://snap-research.github.io/DELTA/

要点:

🌟 DELTAは、単眼ビデオの各ピクセルを効率的に追跡するために設計された全く新しい手法です。

⚡ DELTAはCVOおよびKubric3Dデータセットで最先端の結果を達成し、従来の手法よりも8倍高速です。

🔍 この手法は、長時間の遮蔽のある点では課題に直面する可能性がありますが、短い動画では優れた性能を発揮します。