この度、テンセントは人工知能分野で新たな成果を挙げ、Hugging Faceプラットフォームを通じて、革新的なAIモデル「GeometryCrafter」を正式に発表しました。このモデルは、オープンワールドビデオにおいて一貫性のある幾何学的推定を実現する卓越した能力で、瞬く間にテクノロジー業界の注目を集めています。拡散事前学習技術(Diffusion Priors)を活用することで、GeometryCrafterはビデオコンテンツの深い理解と処理に新たな可能性をもたらすだけでなく、クリエイターや研究者にとって3次元世界を探求するための「鍵」を提供します。

GeometryCrafterの最大の特長は、ダイナミックで複雑なオープンワールドビデオから、一貫性のある幾何学的情報を抽出・生成できる点にあります。「オープンワールドビデオ」とは、コンテンツが多様で、シーンの切り替わりが頻繁で、視点の変化が豊かなビデオ素材のことです。例えば、街頭での撮影、旅行記録、自然風景のドキュメンタリーなどが該当します。従来の静止画の幾何学的推定とは異なり、このようなビデオでは、AIモデルの时空的一貫性と汎化能力に高い要求が課せられます。テンセントのチームは、事前学習済みの拡散モデルとビデオ幾何学的推定を組み合わせることで、GeometryCrafterが追加情報(カメラの姿勢やオプティカルフローデータなど)なしで、精緻で連続的な深度シーケンスと幾何学的構造を生成することに成功しました。

image.png

このモデルの開発は、拡散モデルが画像生成分野で成功を収めた経験に基づいています。拡散事前学習技術は、段階的なノイズ除去のプロセスを通じて、ビデオフレーム間の微妙な関連性を捉え、それらの情報を3次元空間の幾何学的表現に変換します。街頭を行き交う人々のダイナミックな動きから、山河の光と影が織りなす自然の風景まで、GeometryCrafterは驚異的な精度で空間的な階層を再現します。この能力は、ビデオコンテンツを2次元平面から「立体的に飛び出させる」だけでなく、後の視覚効果、仮想現実コンテンツの生成などのアプリケーションのための堅実な基盤を築きます。

業界の専門家は、GeometryCrafterの発表によって、オープンワールドビデオ幾何学的推定分野の空白が埋められたと指摘しています。これまで、多くのモデルは、長時間のビデオや制御されていないシーンを処理する際に、十分なコンテキストの理解が不足しているために結果が歪むことがありました。一方、GeometryCrafterは独自の3段階のトレーニング戦略と、現実と合成データセットの組み合わせにより、コンテンツの豊富さと幾何学的詳細の正確性を両立させています。実験結果によると、このモデルは複数の公開データセットにおいて既存の方法を凌駕しており、特に長時間のシーケンスの一貫性を維持する点において、業界のベンチマークと言えるでしょう。

image.png

一般ユーザーやクリエイターにとっても、GeometryCrafterの意義は非常に大きいです。例えば、家庭用ビデオの中で子供が走っているシーンを、この技術を使って3次元深度を与え、仮想シーンにシームレスに統合できるようになります。あるいは、独立系の映画製作者が、GeometryCrafterを使ってシンプルな撮影素材を没入型の視聴体験に変換することも可能です。テンセントがHugging Faceでモデルコードと重みをオープンソース化したことは、AI技術の普及化を推進する決意を示しており、より多くの人がこの技術の探求と応用に参加できるようになります。

もちろん、GeometryCrafterは完璧ではありません。分析担当者は、計算資源の需要が一般的なデバイスにとって課題となる可能性があり、非常に複雑なシーン(密集した人々や高速で動く物体など)では、モデルのパフォーマンスに改善の余地があると指摘しています。しかし、この技術の登場は私たちに新たな可能性を示し、AIがどのように日常生活のスナップショットを立体感のあるデジタルアートに変換するかを垣間見せてくれます。

GeometryCrafterの登場により、テンセントは再びAI分野における深い蓄積と革新的な能力を証明しました。ビデオコンテンツの幾何学的再構成から分野横断的な潜在的な応用まで、このモデルは技術的なブレークスルーであるだけでなく、温かい招待状でもあります。それは、誰もがテクノロジーの力で、私たちを取り巻くカラフルな世界を再発見し、形作るための招待状です。

論文:https://huggingface.co/papers/2504.01016

モデル:https://huggingface.co/TencentARC/GeometryCrafter