Im Bereich der Spieleentwicklung ist die Vielfalt und Innovation von Spielszenen eine ständige Herausforderung. Kürzlich haben die Universität Hongkong und Kuaishou Technology gemeinsam ein innovatives Framework namens GameFactory entwickelt, um das Problem der Szenengeneralisierung bei der Generierung von Spielvideos zu lösen. Dieses Framework nutzt vortrainierte Videodiffusionsmodelle, die auf Open-World-Videodaten trainiert werden können und so neue und vielfältige Spielszenen generieren.

image.png

Videodiffusionsmodelle sind eine fortschrittliche Generierungstechnologie, die in den letzten Jahren in den Bereichen Videogenerierung und physikalische Simulation großes Potenzial gezeigt hat. Diese Modelle können, ähnlich wie Videogenerierungswerkzeuge, auf Benutzereingaben wie Tastatur und Maus reagieren und entsprechende Spielbilder generieren. Die Szenengeneralisierung, also die Fähigkeit, über bestehende Spielszenen hinaus neue Spielszenen zu schaffen, stellt jedoch weiterhin eine große Herausforderung dar. Das Sammeln großer Mengen von Videos mit Aktionsannotationen, um dieses Problem zu lösen, ist zwar ein direkter Ansatz, aber sehr zeitaufwendig und besonders in Open-World-Szenarien unrealistisch.

Das GameFactory-Framework wurde entwickelt, um genau dieses Problem zu lösen. Durch die Verwendung vortrainierter Videodiffusionsmodelle kann GameFactory eine übermäßige Abhängigkeit von spezifischen Spieldaten vermeiden und die Generierung vielfältiger Spielszenen unterstützen. Um die Lücke zwischen dem Open-World-Vorwissen und den begrenzten Spieldaten zu schließen, verwendet GameFactory außerdem eine einzigartige dreistufige Trainingsstrategie.

In der ersten Phase wird das vortrainierte Modell mit LoRA (Low-Rank Adaptation) feinabgestimmt, um es an spezifische Spielebereiche anzupassen und gleichzeitig die ursprünglichen Parameter zu erhalten. In der zweiten Phase werden die vortrainierten Parameter eingefroren, und der Fokus liegt auf dem Training des Aktionskontrollmoduls, um Verwechslungen zwischen Stil und Steuerung zu vermeiden. Schließlich werden in der dritten Phase die LoRA-Gewichte entfernt und die Parameter des Aktionskontrollmoduls beibehalten, sodass das System kontrollierte Spielvideos in verschiedenen Open-World-Szenarien generieren kann.

Die Forscher haben auch die Effektivität verschiedener Kontrollmechanismen bewertet und festgestellt, dass der Cross-Attention-Mechanismus bei der Verarbeitung diskreter Steuersignale wie Tastatureingaben besser abschneidet, während die Konkatinationsmethode bei der Verarbeitung von Mausbewegungssignalen effektiver ist. GameFactory unterstützt auch die autoregressive Aktionskontrolle und kann interaktive Spielvideos beliebiger Länge generieren. Darüber hinaus hat das Forschungsteam den hochwertigen, aktionsannotierten Videodaten-Satz GF-Minecraft veröffentlicht, der für das Training und die Evaluierung des Frameworks verwendet werden kann.

Paper:https://arxiv.org/abs/2501.08325

Wichtigste Punkte:

🌟 Das GameFactory-Framework wurde von der Universität Hongkong und Kuaishou Technology gemeinsam entwickelt, um das Problem der Szenengeneralisierung bei der Generierung von Spielvideos zu lösen.

🎮 Das Framework nutzt vortrainierte Videodiffusionsmodelle, um vielfältige Spielszenen zu generieren und verwendet eine dreistufige Trainingsstrategie zur Verbesserung der Ergebnisse.

📊 Die Forscher haben außerdem den aktionsannotierten Videodaten-Satz GF-Minecraft veröffentlicht, um das Training und die Evaluierung von GameFactory zu unterstützen.