2月26日,谷歌Deep Mind团队发布基础世界模型Genie,一个虚拟生成的可交互环境,110 亿参数,通过给模型投喂视频数据进行训练,生成照片、草图甚至可以操控的虚拟世界。Genie是在没有任何动作标签的情况下进行训练的,而传统AI是需要人给图片打标签来训练AI识别图片。这意味着Genie需要从视频中自行识别不同动作的特征和模式。Genie生成的视频卡通化,可模拟机器人动作与变形物体,较Sora更偏向动图。谷歌表示Genie具有挑战性,能够学习细颗粒度的控制,从互联网视频中学习。Genie还可以模拟多种潜在动作,根据生成的环境推测出不同动作。