Pesquisadores da Universidade de Ciência e Tecnologia de Hong Kong e da Universidade de Ciência e Tecnologia da China, entre outras instituições, lançaram recentemente o modelo GameGen-X, um modelo transformador de difusão projetado especificamente para gerar e interagir com vídeos de jogos de mundo aberto.

O GameGen-X pode gerar vídeos de jogos de mundo aberto por si só, simulando várias funcionalidades de motores de jogo, incluindo a geração de personagens inovadores, ambientes dinâmicos, ações complexas e eventos diversificados. Ele também interage com você, permitindo que você experimente a emoção de ser um designer de jogos.

QQ20241106-104858.jpg

Um dos principais destaques do GameGen-X é sua capacidade de interação controlável. Ele pode prever e alterar o conteúdo futuro com base no clipe de jogo atual, simulando assim a jogabilidade.

Os usuários podem influenciar o conteúdo gerado por meio de sinais de controle multimodais, como instruções de texto estruturado e controle de teclado, permitindo o controle da interação do personagem e do conteúdo da cena.

Para treinar o GameGen-X, os pesquisadores também construíram o primeiro grande conjunto de dados de vídeo de jogos de mundo aberto, o OGameData. Este conjunto de dados contém mais de 1 milhão de clipes de vídeo de jogos diferentes de mais de 150 jogos e utilizou o GPT-4 para gerar descrições informativas de texto.

O processo de treinamento do GameGen-X é dividido em duas etapas: pré-treinamento do modelo básico e ajuste fino de instruções. Na primeira etapa, o modelo é pré-treinado por meio de tarefas de geração de texto para vídeo e continuação de vídeo, permitindo que ele gere vídeos de jogos de domínio aberto de alta qualidade e longa sequência.

Na segunda etapa, para alcançar a capacidade de interação controlável, os pesquisadores projetaram o módulo InstructNet, que integra especialistas em sinais de controle multimodais relacionados a jogos.

O InstructNet permite que o modelo ajuste as representações latentes com base na entrada do usuário, unificando pela primeira vez a interação do personagem e o controle do conteúdo da cena na geração de vídeo. Durante o ajuste fino das instruções, apenas o InstructNet é atualizado, enquanto o modelo básico pré-treinado é congelado, permitindo que o modelo integre a capacidade de interação controlável sem perder a diversidade e a qualidade do conteúdo do vídeo gerado.

Os resultados experimentais mostram que o GameGen-X apresenta excelente desempenho na geração de conteúdo de jogos de alta qualidade e fornece excelente capacidade de controle de ambiente e personagens, superando outros modelos de código aberto e comerciais.

Claro, esta IA ainda está em estágio inicial e ainda há um longo caminho a percorrer antes de realmente substituir os designers de jogos. Mas sua aparição, sem dúvida, trouxe novas possibilidades para o desenvolvimento de jogos. Ele fornece um novo método para o design e desenvolvimento de conteúdo de jogos, mostrando o potencial dos modelos generativos como ferramentas auxiliares para tecnologias de renderização tradicionais, integrando efetivamente a geração criativa com funcionalidades interativas e abrindo novas possibilidades para o desenvolvimento futuro de jogos.

Endereço do projeto: https://gamegen-x.github.io/