Tencent a récemment lancé GameGen-O, un modèle vidéo innovant, le premier modèle de diffusion transformateur spécialement conçu pour les jeux vidéo en monde ouvert. Contrairement aux modèles vidéo traditionnels, GameGen-O ne se contente pas de générer du contenu de jeu de haute qualité, il permet également aux utilisateurs de contrôler les actions des personnages de la vidéo en temps réel, comme s'ils manipulaient des personnages de jeu, ouvrant ainsi une nouvelle ère d'interaction entre l'intelligence artificielle et les jeux.

Vidéo de démonstration officielle

Le principal atout de GameGen-O réside dans sa capacité diversifiée de génération de contenu et son contrôle interactif sans précédent. Les utilisateurs peuvent créer divers personnages, tels que "Geralt de Riv" ou "Arthur Morgan", et les placer dans des environnements aux saisons changeantes, mettant en scène des scénarios variés comme "une balade à moto" ou "une pluie torrentielle". Plus excitant encore, GameGen-O prend en charge la génération en domaine ouvert ; les utilisateurs peuvent diriger le modèle en temps réel pour générer des séquences vidéo correspondantes grâce à des instructions structurées et des signaux d'opération, comme s'ils réalisaient leur propre monde virtuel.

Pour réaliser cette technologie révolutionnaire, l'équipe Tencent a déployé des efforts considérables. Elle a construit le premier jeu de données de jeux vidéo en monde ouvert (OGameData), collectant des données provenant de centaines de jeux en monde ouvert de nouvelle génération. Après une sélection et un traitement rigoureux, environ 15 000 vidéos de haute qualité ont été sélectionnées parmi 32 000 vidéos brutes. Ces vidéos ont subi de multiples traitements, notamment la détection de scènes, l'évaluation esthétique, l'analyse du flux optique et la sélection du contenu sémantique. Elles ont ensuite été annotées de manière structurée à l'aide de modèles experts et de grands modèles multimodaux, fournissant ainsi une base de données précise et interactive pour l'entraînement du modèle.

image.png

Le processus d'entraînement de GameGen-O est également unique, divisé en deux phases : le pré-entraînement du modèle de base et l'ajustement fin par instructions. Pendant la phase de pré-entraînement, le modèle apprend la capacité de génération de vidéos de jeux vidéo en domaine ouvert grâce à des tâches de texte à vidéo et de continuation vidéo. Lors de la phase d'ajustement fin par instructions, l'équipe de recherche a gelé le modèle pré-entraîné et introduit un InstructNet entraînable pour l'ajustement fin, permettant au modèle de générer des images suivantes en fonction d'instructions structurées multimodales, réalisant ainsi la génération et le contrôle interactif de vidéos basés sur des instructions.

image.png

Bien que GameGen-O puisse encore être amélioré sur certains aspects, il représente sans aucun doute une étape importante dans la création de contenu de jeu pilotée par l'IA. Cette technologie offre non seulement aux développeurs de jeux un outil puissant, mais elle ouvre également aux utilisateurs ordinaires une nouvelle ère de création et d'exploration libres dans le monde virtuel. Avec l'amélioration constante de la technologie, nous pouvons nous attendre à ce que chacun puisse facilement créer sa propre expérience de jeu immersive dans un avenir proche.

L'apparition de GameGen-O marque une nouvelle fusion profonde entre l'industrie du jeu et le domaine de l'intelligence artificielle. Elle met non seulement en évidence la puissance de Tencent en matière de technologie IA, mais elle indique également la direction future du développement de l'ensemble du secteur. Nous attendons avec impatience de voir comment cette technologie va transformer le paysage de la création de jeux et apporter plus de surprises et de possibilités aux joueurs.

Adresse du projet : https://top.aibase.com/tool/gamegen-o