「AIの母」と呼ばれるスタンフォード大学の李飛飛教授とその研究チームは最近、マルチモーダル大規模言語モデルの「空間知能」に関する研究を発表し、これらのモデルが空間の記憶と想起において初期段階の能力を備え、局所的な世界モデルを形成する可能性を示しました。

研究チームは、視覚空間知能を評価するためのツールであるVSI-Benchを開発しました。これは、288本の実際のビデオに基づいた5000以上の高品質な質疑応答ペアを含んでいます。テストビデオは、居住空間、専門的な場所、産業現場などを網羅し、複数の地理的地域に及びます。

QQ20241223-144615.png

研究結果によると、マルチモーダルモデルの全体的なパフォーマンスは人間よりも低いものの、特定のタスクでは人間レベルに達するか、それに近づいています。例えば、Gemini-1.5Proは絶対距離や部屋の大きさの推定などのタスクで優れたパフォーマンスを示し、LLaVAシリーズなどのいくつかのオープンソースモデルも競争力のある結果を得ています。

研究では、認知地図を用いた空間推論が、モデルの空間タスクにおけるパフォーマンスを大幅に向上させることが示されました。精度が10パーセントポイント向上したのです。これは、認知地図を明確に生成することで、モデルの空間理解におけるボトルネックを克服できることを示唆しています。

李飛飛教授は、空間知能はAIが物理世界を理解するための重要な能力であり、汎用人工知能(AGI)の実現に不可欠であると述べています。彼女は、空間知能がAI分野の次の最先端技術分野となり、2025年には重要なブレークスルーが期待されると考えています。

今年9月、李飛飛教授が設立したWorld Labsが正式に発足し、空間知能を備えたAIモデルの開発に注力しています。同社は、NVIDIA、a16z、Adobeなどの著名な機関から投資を受けており、現在の評価額は10億ドルを超えています。

この研究とその応用は、AI技術が2次元情報処理から3次元空間認識への重要な進歩を示しており、今後、ナビゲーション、ロボットとのインタラクション、拡張現実など幅広い分野への応用が期待され、人工知能の更なる発展に新たな道を切り開くでしょう。