チャイナZ(ChinaZ.com)6月14日 ニュース: 字節跳動が次世代深度モデル「Depth Anything V2」を発表しました。このモデルは、単眼深度推定において顕著な性能向上を実現しています。前世代のDepth Anything V1と比較して、V2はより精細なディテールと高い堅牢性を備え、効率性も大幅に向上しており、Stable Diffusionベースのモデルと比べて10倍以上の高速化を実現しています。

image.png

主な特徴:

より精細なディテール: V2モデルはディテールを最適化し、より精緻な深度予測を提供します。

高効率と高精度: SDベースのモデルと比較して、V2は効率性と精度において顕著な向上を示します。

複数規模モデルのサポート: 25Mから1.3Bまでの様々なパラメータを持つモデルを提供し、様々な用途に対応します。

重要な実践: 合成画像による実画像の置換、教師モデル容量の拡大、大規模擬似ラベル付き画像を用いた生徒モデルへの学習などにより、モデルの性能を向上させています。

モデル性能向上のための3つの重要な実践:

合成画像の利用: 全てのラベル付き実画像を合成画像に置き換えることで、モデルの学習効率を向上させました。

教師モデル容量の拡大: 教師モデルの容量を拡大することで、モデルの汎化能力を強化しました。

擬似ラベル付き画像の活用: 大規模な擬似ラベル付き実画像を橋渡しとして利用し、生徒モデルを学習させることで、モデルの堅牢性を向上させました。

幅広い適用シナリオのサポート:

幅広い用途に対応するため、研究者たちは様々な規模のモデルを提供し、その汎化能力を利用して、深度ラベルの測定による微調整を行っています。

疎な深度アノテーションを含む多様な評価基準を構築し、今後の研究を促進しています。

合成画像と実画像に基づく学習方法:

研究者たちはまず、合成画像を用いて最大規模の教師モデルを学習させ、その後、大規模な未ラベル付き実画像に対して高品質な擬似ラベルを生成し、これらの擬似ラベル付き実画像を用いて生徒モデルを学習させました。

学習過程では、595,000枚の合成画像と6200万枚以上の擬似ラベル付き実画像が使用されました。

Depth Anything V2モデルの発表は、字节跳動の深層学習技術分野における革新性を示しており、その高効率かつ高精度の性能は、このモデルがコンピュータビジョン分野で幅広い応用可能性を持つことを示唆しています。

プロジェクトアドレス:https://depth-anything-v2.github.io/