最近、Meta社のAI主席科学者であるYann LeCun氏率いる研究チームが、人工知能が動画を視聴することで基本的な物理的理解を育む方法を明らかにしました。Meta FAIR、パリ大学、EHESSの科学者らによる共同研究で、AIシステムが事前に設定されたルールなしに、自己教師あり学習を通じて直感的な物理的知識を獲得できることが示されました。
研究チームは、「ビデオ結合埋め込み予測アーキテクチャ(V-JEPA)」と呼ばれる新しい手法を採用しました。OpenAIのSoraなどの生成型AIモデルと比較して、V-JEPAの動作原理は人間の脳の情報処理方法により近いです。V-JEPAは完璧なピクセル予測を目指しているわけではなく、抽象的な表現空間での予測に焦点を当てています。この方法により、AIシステムは基本的な物理的概念を学習できます。
研究では、発達心理学の「期待違反」評価法を借用しました。この方法は、当初は乳幼児の物理的理解能力をテストするために用いられていました。研究者はAIに2つの似たような場面(物理的に可能と不可能な場面、例えばボールが壁を通り抜けるなど)を示し、これらの物理的な違反現象への反応を測定することで、AIの物理的理解能力を評価しました。
V-JEPAは、IntPhys(基本的な物理概念)、GRASP(複雑な相互作用)、InfLevel(現実環境)の3つのデータセットでテストされました。その結果、V-JEPAは物体恒常性、連続性、形状の一貫性において特に優れた性能を示しましたが、Gemini1.5ProやQwen2-VL-72Bなどの大規模なマルチモーダル言語モデルの性能は、ほぼランダムな推測と同等でした。
V-JEPAの学習効率も注目に値します。このシステムは、わずか128時間の動画を視聴するだけで、基本的な物理的概念を習得できます。さらに、1億1500万パラメータという小型モデルでも強力な効果を発揮しました。研究によると、V-JEPAは運動パターンを効果的に識別し、物理的に不合理な事象を高精度で識別できます。これは、AIが真に世界を理解する未来への基盤となります。
この研究は、多くのAI研究における基本的な仮定、つまりシステムが物理法則を理解するために「コア知識」を事前に設定する必要があるという仮定に疑問を投げかけています。V-JEPAの発見は、観察学習がAIがこの分野の知識を得るのに役立ち、乳幼児、霊長類、さらには若い鳥類が物理を理解する過程に似ていることを示しています。この研究は、自律型AIシステムが環境をより深く理解できるように、包括的な世界モデルを作成することを目指すMeta社のJEPAアーキテクチャに関する長年の研究目標に沿っています。
要点:
🧠 研究によると、AIは事前に設定されたルールなしに、動画から物理的知識を学習します。
📊 V-JEPAは、大規模言語モデルよりも物理的理解において優れており、より強い学習能力を示します。
🌍 Meta社は、より包括的な環境理解モデルを作成することを目指し、新しいAI開発の方向性を推進しています。