現代の人工知能モデルは、人間のように記憶し、思考し、計画し、推論できるのでしょうか?一部のAI研究所は、「人間レベルのAI」がすぐそこまで来ているかのように思わせますが、MetaのチーフAI科学者であるYann LeCun氏は、水を差すような発言をしています。彼は、この目標を達成するには、おそらく10年以上の努力が必要であり、その鍵は「世界モデル」にあると考えています。
今年初め、OpenAIは、ChatGPTがユーザーとの会話を「記憶」できるという新機能を発表しました。「思考」という言葉を生成出力時に表示し、複雑な推論を行うことができると主張する最新世代のモデルも登場しています。
出典注記:画像はAIによって生成され、画像ライセンスサービスプロバイダーMidjourneyから提供されています。
AGI(汎用人工知能)の時代がもうすぐ来るように思えます。しかし、最近のハドソンフォーラムで、LeCun氏は、xAIの創設者であるElon Musk氏や、Google DeepMindの共同創設者であるShane Legg氏など、人間レベルのAIが目前にあると考える楽観的な見解を反論しました。
LeCun氏は、「世界を理解できる機械が必要です。記憶、直感、常識を持ち、人間のように推論し、計画できる機械です。」と指摘し、AI開発に熱心な人々の声が多いにもかかわらず、現在のAIシステムは、このレベルには程遠いことを強調しました。彼は、真の人間レベルのAIの実現には「数年から数十年」かかる可能性があると述べています。
では、問題はどこにあるのでしょうか?それは簡単です。現在の巨大言語モデル(LLM)は、次の単語(通常は数文字または短い単語)を予測することによってのみ機能し、現在の画像やビデオモデルは次のピクセルを予測します。つまり、言語モデルは1次元で予測を行うのに対し、画像/ビデオモデルは2次元で行います。これらのモデルはそれぞれの分野で非常に優れたパフォーマンスを示していますが、3次元世界の複雑さを理解しているわけではありません。
そのため、現代のAIシステムは、人間が簡単にこなせるような単純なタスクも実行できません。LeCun氏は、人間は10歳までにテーブルの片付け方を学び、17歳までに運転を学ぶことができ、数時間ですら可能であると述べています。しかし、現在の最先端のAIシステムでさえ、数千時間、数百万時間ものデータトレーニングを受けた後でも、現実世界で確実に操作することはできません。
より複雑なタスクを実現するには、周囲の世界を感知できる3次元モデルを構築する必要があるとLeCun氏は考えており、その中心となるのが新しいAIアーキテクチャである「世界モデル」です。彼は、「世界モデルとは、世界がどのように振る舞うかについてのあなたの心理モデルです。」と説明しています。あなたは、自分が取ることができる一連の行動を想像することができますが、あなたの世界モデルは、それらの行動が世界にどのような影響を与えるかを予測できるようにします。
例えば、散らかった寝室を見て、それを片付けたいと想像してみてください。あなたは、すべての服を拾って片付けることで問題を解決できると自然に考えます。さまざまな方法を試したり、部屋の片付け方を最初に学ぶ必要はありません。あなたの脳は3次元空間を観察し、目標を達成できる最初の行動計画を直接立てます。この行動計画こそが、AIの世界モデルが約束する「秘密兵器」なのです。
世界モデルのもう一つの利点は、LLMよりもはるかに大量のデータを処理できることです。そのため、計算の必要性も複雑になりますが、これが主要なクラウドサービスプロバイダーがAI企業との協力を争っている理由です。
現在、複数のAI研究所が世界モデルという大きな概念を追いかけており、この言葉は急速にベンチャーキャピタルを引き付けるホットな話題となっています。「AIの女神」Fei-Fei Li氏とJustin Johnson氏を含む、著名なAI研究者グループは、彼らのスタートアップ企業であるWorld Labsに2億3000万ドルの資金を調達しました。彼女と彼女のチームは、世界モデルがよりスマートなAIシステムの解錠をすると確信しています。OpenAIも、まだ発表されていないSoraビデオジェネレーターを世界モデルの一種として説明していますが、具体的な詳細は明らかになっていません。
LeCun氏は、2022年の「目標駆動型AI」に関する論文で、世界モデルを使用して人間レベルのAIを作成するという構想を説明していますが、この概念は60年以上前から存在していると指摘しています。簡単に言うと、世界モデルは、世界の基本的な表現(例えば、汚れた部屋のビデオ)と記憶によってトレーニングされます。その後、このモデルはこれらの情報に基づいて世界の変化を予測します。次に、世界モデルに目標を設定します。これは、あなたが実現したい世界の変化の状態(例えば、部屋をきれいにする)を含み、「保護策」を設定して、モデルが目標を達成するために人間を危険にさらさないようにします(例えば、部屋を掃除する際に私を傷つけないでください)。最後に、世界モデルはこれらの目標を達成するための行動シーケンスを見つけます。
Metaの長期的なAI研究研究所であるFAIR(基礎AI研究)は、目標駆動型AIと世界モデルを積極的に研究しているとLeCun氏は述べています。FAIRはかつてMetaの今後の製品のためのAI研究を行っていましたが、LeCun氏によると、近年は長期的なAI研究に焦点を当てるようになり、現在ではLLMを使用しなくなっているとのことです。
世界モデルは魅力的な概念ですが、LeCun氏は、これらのシステムを現実のものにする上で、まだ大きな進歩を遂げていないことを認めています。目標達成にはまだ多くの困難な問題を解決する必要があり、「10年とは言わないまでも、ここにあるものはすべて数年は機能しない可能性がある」と述べており、彼のボスであるマーク・ザッカーバーグ氏は、いつ実現できるのかを常に尋ねているとのことです。