北京智源人工知能研究院(BAAI)は、大規模な無ラベルインターネット動画を用いて学習する革新的な3D生成モデル「See3D」を発表しました。この技術的ブレークスルーは、「動画を見るだけで3Dモデルを取得する」という理念への重要な一歩を意味します。See3Dモデルは従来のカメラパラメータに依存せず、視覚条件技術を採用することで、動画の視覚情報のみからカメラ方向を制御し、幾何学的に整合性のある多視点画像を生成します。この手法は、高価な3Dデータやカメラのラベル付けの必要性を排除し、インターネット動画から効率的に3Dの事前情報を学習できます。

See3Dモデルは、テキスト、単一視点、疎な視点から3Dへの生成をサポートし、3D編集とガウスレンダリングも可能です。モデル、コード、デモは既に公開されており、より詳細な技術情報を確認できます。See3Dの効果は、3Dインタラクティブワールドの構築、疎な画像からの3D再構成、オープンワールド3D生成、単一視点からの3D生成など、様々な3D制作アプリケーションにおける幅広い適用性を示しています。

微信截图_20241210151417.png

研究の動機は、3Dデータの制約にあります。従来の3Dデータ収集は時間と費用がかかりますが、動画は多視点の関連性とカメラの動きに関する情報を含んでいるため、3D構造を明らかにするための強力なツールとなります。See3Dが提案する解決策には、データセットの構築、モデルのトレーニング、3D生成フレームワークが含まれます。チームは動画データを自動的に選別し、1600万個の動画片段と3.2億フレームの画像を含むWebVi3Dデータセットを構築しました。See3Dモデルは、マスクされた動画データに時間依存ノイズを追加することで、純粋な2D視覚信号を生成し、拡張可能な多視点拡散モデルのトレーニングをサポートし、カメラ条件を必要としない3D生成を実現しました。

See3Dの利点は、データの拡張性、カメラの制御可能性、幾何学的整合性です。トレーニングデータは大量のインターネット動画から取得され、構築された多視点データセットは規模において桁違いの向上を実現しています。モデルは、任意の複雑なカメラ軌跡下でのシーン生成をサポートし、前後フレームの視点の幾何学的整合性を維持します。

データセット規模の拡大により、See3Dは3D生成技術の発展に新たな方向性を提示します。この研究が、3D研究コミュニティにおける大規模な無カメララベルデータへの関心を高め、3Dデータ収集のコストを削減し、既存のクローズドソースの3Dソリューションとの差を縮小することに貢献することを期待しています。

プロジェクトアドレス: https://vision.baai.ac.cn/see3d