2月26日、Google DeepMindチームは基礎世界モデル「Genie」を発表しました。これは、110億パラメーターを持つ、インタラクティブに操作可能な仮想環境を生成するモデルです。ビデオデータを与えて学習させることで、写真、スケッチ、さらには操作可能な仮想世界を生成します。Genieは、アクションラベルを一切使用せずに学習されました。従来のAIは、人間が画像にラベル付けしてAIに画像認識を学習させる必要がありましたが、Genieはビデオから独自に様々なアクションの特徴とパターンを認識する必要があります。Genieが生成するビデオはカートゥーン調で、ロボットのアクションや物体の変形をシミュレートでき、SoraよりもGIFアニメーションに近い特性を持っています。Googleは、Genieは細粒度の制御を学習できる挑戦的なモデルであり、インターネット上のビデオから学習すると述べています。また、Genieは様々な潜在的なアクションをシミュレートし、生成された環境に基づいて異なるアクションを推測することもできます。