Le 26 février, l'équipe Google DeepMind a publié Genie, un modèle de monde fondamental, un environnement virtuel interactif génératif de 11 milliards de paramètres. Entraîné à partir de données vidéo, il génère des photos, des croquis et même des mondes virtuels manipulables. Genie a été entraîné sans aucune annotation d'action, contrairement aux IA traditionnelles qui nécessitent l'étiquetage manuel des images pour l'apprentissage de la reconnaissance d'images. Cela signifie que Genie doit identifier lui-même les caractéristiques et les schémas des différentes actions à partir des vidéos. Les vidéos générées par Genie sont stylisées, capables de simuler des mouvements de robots et des objets en transformation, se rapprochant davantage des GIF animés que de Sora. Google indique que Genie représente un défi de taille, capable d'apprendre un contrôle très précis à partir de vidéos Internet. Genie peut également simuler plusieurs actions potentielles et inférer différentes actions en fonction de l'environnement généré.