香港科技大学、中国科学技术大学等机构的研究人员近日发布了 GameGen-X 模型,这是一个专为生成和互动控制开放世界游戏视频而设计的扩散变换器模型。

GameGen-X能自己生成开放世界游戏视频,可以模拟各种游戏引擎功能,包括生成创新角色、动态环境、复杂动作和多样化事件,还能跟你互动,让你体验一把当游戏策划的快感。

QQ20241106-104858.jpg

GameGen-X 的一大亮点在于其互动可控性。它可以根据当前的游戏片段预测和改变未来内容,从而实现游戏玩法的模拟。

用户可以通过多模态控制信号,如结构化文本指令和键盘控制,来影响生成的内容,从而实现对角色互动和场景内容的控制。

为了训练 GameGen-X,研究人员还构建了第一个大型开放世界游戏视频数据集 OGameData。该数据集包含超过100万个来自150多款游戏的不同游戏视频片段,并利用 GPT-4o 为其生成了 informative 的文本描述。

GameGen-X 的训练过程分为两个阶段:基础模型预训练和指令微调。在第一阶段,模型通过文本到视频生成和视频延续任务进行预训练,使其能够生成高质量、长序列的开放域游戏视频。

在第二阶段,为了实现互动可控性,研究人员设计了 InstructNet 模块,该模块集成了与游戏相关的多模态控制信号专家。

InstructNet 允许模型根据用户输入调整潜在表示,从而首次在视频生成中统一了角色互动和场景内容控制。在指令微调过程中,只有 InstructNet 被更新,而预训练的基础模型被冻结,这使得模型能够在不损失生成视频内容多样性和质量的情况下集成互动可控性。

实验结果表明,GameGen-X 在生成高质量游戏内容方面表现出色,并提供了对环境和角色的出色控制能力,优于其他开源和商业模型。

当然,这 AI 现在还只是个 初级阶段,离真正取代游戏策划还有很长的路要走。但它的出现,无疑给游戏开发带来了新的可能性。它为游戏内容设计和开发提供了一种新的方法,展示了生成模型作为传统渲染技术的辅助工具的潜力,有效地将创意生成与互动功能融合在一起,为未来的游戏开发带来了新的可能性。

项目地址:https://gamegen-x.github.io/