チェコ工科大学とスイス連邦工科大学チューリッヒ校の研究チームは最近、「WildGaussians」という革新的な手法を発表しました。この手法は、非構造化画像セットを処理する際の3Dガウシアン・スプッタリング(3DGS)技術の能力を大幅に向上させます。この画期的な進歩により、ウェブ上から収集されたランドマークの写真などの非構造化画像セットから、高品質な3D再構築が可能になりました。

WildGaussiansは主に、外観と照明の変化、そして移動する物体の遮蔽という2つの重要な課題を解決します。研究チームは、これらの課題に対処するために、外観モデリングと不確実性モデリングという2つのコアコンポーネントを開発しました。

外観モデリングにより、システムは異なる条件(時間や天候など)で撮影された画像を処理できます。この手法は、各トレーニング画像とガウス分布に対して学習可能な埋め込みを使用し、ニューラルネットワーク(MLP)によってガウス分布の色を調整して、対応する撮影条件に適応させます。

不確実性モデリングは、トレーニング中に歩行者や自動車などの遮蔽物を識別して無視するのに役立ちます。研究者らは、事前にトレーニングされたDINOv2特徴を利用して、システムの景観変化への適応能力を高めました。

QQ截图20240717141933.png

性能面では、WildGaussiansは、NeRF On-the-goやフォトツアーデータセットなどの困難なデータセットで優れた性能を示し、既存の最先端の手法を凌駕しています。同時に、この手法はNvidia RTX4090 GPU上で毎秒117枚の画像を処理するリアルタイムレンダリング速度を実現しています。

WildGaussiansは3D再構築の分野で大きな進歩を遂げましたが、研究者らは、物体上の鏡面ハイライトの表現など、この手法にはまだいくつかの限界があると認めています。彼らは今後、拡散モデルなどの技術を統合することで、この手法をさらに改善する予定です。

この研究は、ノイズの多いユーザー生成データから、堅牢で多機能、そして写真のようなリアルな3D再構築を実現するための新しい可能性を切り開きます。これは、仮想現実、拡張現実、コンピュータビジョンなど、多くの分野に大きな影響を与えることが期待されます。