最近、スタンフォード大学とマサチューセッツ工科大学の研究者らが共同で、単一の画像からリアルタイムで3Dシーンを生成できるAIシステム「WonderWorld」を開発しました。この新技術により、ユーザーは段階的に仮想環境を構築・探索し、生成されるシーンの内容とレイアウトを簡単に制御できます。
WonderWorld最大の課題は、高速な3Dシーン生成の実現でした。従来の方法では、シーンの生成に数分から数時間かかることが一般的でしたが、WonderWorldはNvidia A6000 GPU上でわずか10秒で新しい3D環境を生成できます。この速度によりリアルタイムでのインタラクションが可能になり、この分野における大きな進歩を示しています。
WonderWorldの動作原理は、入力画像から出発して、まず予備的な3Dシーンを生成することです。その後、システムはシーン画像と対応するFLAGS表現を交互に生成するループに入ります。ユーザーはカメラを移動させて新しいシーンの生成を制御し、テキスト入力を使って目的のシーンの種類を指定できます。
特筆すべきは、FLAGS表現が前景、背景、天空の3層で構成されている点です。各層には「サーフェル」と呼ばれる要素の集合が含まれており、3D位置、方向、スケール、透明度、色によって定義されます。これらのサーフェルは、深さと法線マップの推定によって初期化され、最適化を経て最終的なシーンが作成されます。
シーン遷移時の幾何学的歪みを軽減するために、WonderWorldはガイド付き深度拡散プロセスを採用しています。この方法は、事前に学習された深度マップ拡散モデルを使用して、深度推定を調整し、シーンの既存部分の形状に合わせます。
実験によると、WonderWorldは速度と視覚的な品質の両方において、従来の3Dシーン生成手法を明らかに凌駕しています。ユーザー調査では、生成されたシーンは他の手法で生成されたシーンよりも視覚的に説得力があると評価されました。
WonderWorldは速度と視覚的な品質において従来の方法を大幅に上回っていますが、依然としていくつかの限界があります。例えば、前方表面しか作成できず、仮想世界での移動角度は約45度以内という制限があります。さらに、生成された世界は現在、紙の切り抜きのように見え、木のような詳細なオブジェクトを処理する際には、「穴」や「浮遊」要素が発生する可能性があります。
これらの制限はあるものの、研究者らはWonderWorldの可能性に大きな期待を寄せており、特にゲーム開発、仮想現実、動的な仮想世界の作成において大きな可能性を秘めていると考えています。ユーザー調査において生成されたシーンの視覚効果はより説得力があると評価されており、この技術の幅広い応用が期待されます。
プロジェクト入口:https://kovenyu.com/wonderworld/
要点:
🌟 WonderWorld AIは、写真1枚だけでリアルタイムに3Dシーンを生成でき、速度はわずか10秒です。
🎮 このシステムは、ユーザーがシーンの内容とレイアウトを制御でき、ゲーム開発や仮想現実アプリケーションに適しています。
🚧 現状の技術にはいくつかの制限があり、主に前方表面しか生成できないことと、詳細な処理が不十分な点が挙げられます。