単一画像から効率的に高品質で広視野の3Dシーンを生成することは、長らく研究者の課題でした。従来の手法は、多くの場合、多視点データに依存するか、時間のかかるシーンごとの最適化が必要であり、背景の品質や未観測領域の再構築に課題がありました。既存技術は、単一視点3Dシーン生成において、情報不足により遮蔽領域の誤りや歪み、背景のぼやけ、未観測領域の幾何構造の推定困難といった問題を抱えていました。回帰ベースのモデルはフィードフォワード方式で新たな視点合成が可能ですが、複雑なシーン処理には膨大なメモリと計算コストが必要となるため、物体レベルの生成や狭視野シーンに限定されていました。

image.png

これらの限界を克服するため、研究者らはWonderlandという新技術を発表しました。Wonderlandは単一画像のみから、フィードフォワード方式で高品質な点群ベースの3Dシーン表現(3DGS)を効率的に生成します。この技術は、ビデオ拡散モデルが持つ豊富な3Dシーン理解能力を活用し、ビデオ潜在空間から直接3D表現を構築することで、メモリ要求を大幅に削減します。3DGSはフィードフォワード方式でビデオ潜在空間から回帰されるため、再構築プロセスが大幅に高速化されます。Wonderlandの主要な革新点は以下の通りです。

カメラガイド付きビデオ拡散モデルの生成事前知識の活用:画像モデルとは異なり、ビデオ拡散モデルは大量のビデオデータセットで訓練され、シーンにおける複数の視点にわたる包括的な空間関係を捉え、その潜在空間の中に「3D認識」の一種を埋め込んでいます。これにより、新たな視点合成において3Dの一貫性を維持できます。

image.png

双方向分岐条件機構による正確なカメラモーション制御の実現:この機構は、様々な望ましいカメラ軌跡を効果的にビデオ拡散モデルに統合し、単一画像を正確な姿勢制御を伴う3Dシーンの多視点の一貫性のあるキャプチャに拡張することを可能にします。

効率的な3D再構築のためのビデオ潜在空間からの直接3DGSへの変換:新たな潜在空間ベースの大規模再構築モデル(LaLRM)は、フィードフォワード方式でビデオ潜在空間を3Dに昇格させます。画像からシーンを再構築するのに比べて、ビデオ潜在空間は256倍の时空圧縮を提供しながら、必要な一貫性のある3D構造の詳細を保持します。この高圧縮は、LaLRMがより広範な3Dシーンを再構築フレームワーク内で処理することを可能にする上で極めて重要です。

image.png

Wonderlandはビデオ拡散モデルの生成能力を活用することで、高品質で広視野、より多様なシーンのレンダリングを実現し、オブジェクトレベルの再構築を超えるシーンも処理できます。その双方向分岐カメラ条件戦略により、ビデオ拡散モデルはより正確な姿勢制御で3Dが一貫した多視点シーンキャプチャを生成できます。ゼロショットの新視点合成設定下で、Wonderlandは単一画像を入力としてフィードフォワード3Dシーン再構築を行い、RealEstate10K、DL3DV、Tanks-and-Templesなどの複数のベンチマークデータセットにおいて、既存手法を上回る性能を示しました。

Wonderlandの全体的な流れは次のとおりです。まず、単一画像が与えられると、カメラガイド付きビデオ拡散モデルがカメラ軌跡に基づいて、3D認識能力を持つビデオ潜在空間を生成します。次に、潜在空間ベースの大規模再構築モデル(LaLRM)が、このビデオ潜在空間をフィードフォワード方式で利用して3Dシーンを構築します。ビデオ拡散モデルは、双方向分岐カメラ条件機構を用いて正確な姿勢制御を実現します。LaLRMは潜在空間で動作し、広大で高忠実度の3Dシーンを効率的に再構築します。

Wonderlandの技術詳細は以下のとおりです。

カメラガイド付きビデオ潜在空間の生成:正確な姿勢制御を実現するため、この技術はピクセルレベルのPlücker埋め込みを用いて豊富な条件情報を付与し、双方向分岐条件機構を用いてカメラ情報をビデオ拡散モデルに組み込み、静止シーンを生成します。

潜在空間ベースの大規模再構築モデル(LaLRM):このモデルはビデオ潜在空間を3Dガウシアン・スプラッシュ(3DGS)に変換し、シーン構築に使用します。LaLRMはトランスフォーマーアーキテクチャを用いてガウシアン属性を回帰し、ピクセルアライメント方式で大規模な再構築を行います。これは画像レベルのシーンごとの最適化戦略と比較して、メモリと時間コストを大幅に削減します。

漸進的訓練戦略:ビデオ潜在空間とガウシアン・スプラッシュの大きな違いに対処するため、Wonderlandは漸進的訓練戦略を採用し、データソースと画像解像度に関して段階的にモデル性能を向上させます。

研究者らは広範な実験によりWonderlandの有効性を検証しました。カメラガイド付きビデオ生成において、Wonderlandは視覚品質、カメラガイド精度、視覚的類似性において既存技術を上回りました。3Dシーン生成においても、RealEstate10K、DL3DV、Tanks-and-Templesなどのベンチマークデータセットにおいて、他の手法を明らかに上回る結果を示しました。さらに、Wonderlandは野外シーン生成においても強力な能力を示しました。遅延に関しては、Wonderlandはシーン生成にわずか5分しか必要とせず、他の手法をはるかに凌駕しています。

Wonderlandは潜在空間での操作と双方向分岐カメラ姿勢ガイドの組み合わせにより、3D再構築の効率性を向上させるだけでなく、高品質なシーン生成も保証し、単一画像からの3Dシーン生成に新たな突破口を開きました。

論文アドレス:https://arxiv.org/pdf/2412.12091