Dans le domaine du développement de jeux vidéo, la diversité et l'innovation des environnements restent un défi majeur. Récemment, l'Université de Hong Kong et Kuaishou Technology ont collaboré pour développer GameFactory, un framework innovant visant à résoudre le problème de la généralisation des scènes dans la génération de vidéos de jeux. Ce framework utilise un modèle de diffusion vidéo pré-entraîné, capable de s'entraîner sur des données vidéo en domaine ouvert pour générer des scènes de jeu nouvelles et variées.

image.png

Les modèles de diffusion vidéo, en tant que technologie de génération avancée, ont démontré un potentiel énorme ces dernières années dans la génération de vidéos et la simulation physique. Ces modèles peuvent, comme des outils de génération vidéo, répondre aux entrées de l'utilisateur, telles que le clavier et la souris, pour générer des images de jeu correspondantes. Cependant, la généralisation des scènes, c'est-à-dire la capacité de créer de nouvelles scènes de jeu au-delà des scènes existantes, reste un défi majeur dans ce domaine. Bien que la collecte massive de jeux de données vidéo annotés avec des actions soit une approche directe pour résoudre ce problème, cette méthode est longue et coûteuse, particulièrement dans les scénarios en domaine ouvert.

Le framework GameFactory a été conçu pour relever ce défi. Grâce à un modèle de diffusion vidéo pré-entraîné, GameFactory évite la dépendance excessive à des jeux de données spécifiques et permet de générer des scènes de jeu diversifiées. De plus, pour combler le fossé entre les connaissances a priori en domaine ouvert et les jeux de données de jeu limités, GameFactory utilise une stratégie d'entraînement en trois phases unique.

Dans la première phase, l'adaptation du modèle pré-entraîné à un domaine de jeu spécifique est réalisée grâce à un réglage fin LoRA (Low-Rank Adaptation), préservant les paramètres d'origine. La deuxième phase consiste à figer les paramètres pré-entraînés et à se concentrer sur l'entraînement du module de contrôle d'action afin d'éviter toute confusion entre le style et le contrôle. Enfin, dans la troisième phase, les poids LoRA sont supprimés, tandis que les paramètres du module de contrôle d'action sont conservés, permettant au système de générer des vidéos de jeu contrôlées dans différents scénarios en domaine ouvert.

Les chercheurs ont également évalué l'efficacité de différents mécanismes de contrôle et ont constaté que le mécanisme d'attention croisée était plus performant pour traiter les signaux de contrôle discrets tels que les entrées clavier, tandis que la méthode de concaténation était plus efficace pour traiter les signaux de mouvement de la souris. GameFactory prend également en charge le contrôle d'action autorégressif, permettant de générer des vidéos de jeu interactives de longueur illimitée. De plus, l'équipe de recherche a publié un jeu de données vidéo annotées d'actions de haute qualité, GF-Minecraft, pour l'entraînement et l'évaluation du framework.

Article :https://arxiv.org/abs/2501.08325

Points clés :

🌟 Le framework GameFactory a été développé conjointement par l'Université de Hong Kong et Kuaishou Technology pour résoudre le problème de la généralisation des scènes dans la génération de vidéos de jeux.

🎮 Ce framework utilise un modèle de diffusion vidéo pré-entraîné pour générer des scènes de jeu diversifiées et adopte une stratégie d'entraînement en trois phases pour améliorer les performances.

📊 Les chercheurs ont également publié un jeu de données vidéo annotées d'actions, GF-Minecraft, pour soutenir l'entraînement et l'évaluation de GameFactory.