En el campo del desarrollo de videojuegos, la diversidad e innovación de los escenarios siempre ha sido un desafío. Recientemente, la Universidad de Hong Kong y Kuaishou Technology se unieron para desarrollar un marco innovador llamado GameFactory, cuyo objetivo es resolver el problema de la generalización de escenas en la generación de videos de juegos. Este marco utiliza modelos de difusión de video preentrenados, capaces de entrenarse en datos de video de dominio abierto para generar escenas de juego nuevas y diversas.

image.png

Los modelos de difusión de video, como tecnología de generación avanzada, han demostrado un enorme potencial en los últimos años en la generación de video y la simulación física. Estos modelos pueden funcionar como herramientas de generación de video, respondiendo a las entradas del usuario, como teclado y ratón, para generar las imágenes del juego correspondientes. Sin embargo, la generalización de escenas, es decir, la capacidad de crear escenas de juego completamente nuevas más allá de las existentes, sigue siendo un gran desafío en este campo. Si bien la recopilación masiva de conjuntos de datos de video con anotaciones de acciones es un método directo para abordar este problema, este método consume mucho tiempo y recursos, especialmente en escenarios de dominio abierto.

El marco GameFactory se ha creado precisamente para resolver este problema. Gracias a los modelos de difusión de video preentrenados, GameFactory puede evitar la dependencia excesiva de conjuntos de datos de juegos específicos y admite la generación de escenas de juego diversas. Además, para compensar la diferencia entre el conocimiento previo de dominio abierto y los conjuntos de datos de juegos limitados, GameFactory también emplea una estrategia de entrenamiento de tres etapas única.

En la primera etapa, se utiliza el ajuste fino LoRA (Low-Rank Adaptation) para adaptar el modelo preentrenado a un dominio de juego específico, conservando los parámetros originales. En la segunda etapa, se congelan los parámetros preentrenados y se centra el entrenamiento en el módulo de control de acciones para evitar la confusión entre el estilo y el control. Finalmente, en la tercera etapa, se eliminan los pesos LoRA y se conservan los parámetros del módulo de control de acciones, permitiendo que el sistema genere videos de juegos controlados en diferentes escenarios de dominio abierto.

Los investigadores también evaluaron la eficacia de diferentes mecanismos de control y descubrieron que el mecanismo de atención cruzada funciona mejor al procesar señales de control discretas como la entrada del teclado, mientras que el método de concatenación funciona mejor al procesar señales de movimiento del ratón. GameFactory también admite el control de acciones autorregresivo, capaz de generar videos de juegos interactivos de longitud ilimitada. Además, el equipo de investigación también publicó un conjunto de datos de video con anotaciones de acciones de alta calidad, GF-Minecraft, para el entrenamiento y la evaluación del marco.

Artículo:https://arxiv.org/abs/2501.08325

Puntos clave:

🌟 El marco GameFactory ha sido desarrollado conjuntamente por la Universidad de Hong Kong y Kuaishou Technology para resolver el problema de la generalización de escenas en la generación de videos de juegos.

🎮 Este marco utiliza modelos de difusión de video preentrenados para generar escenas de juego diversas y emplea una estrategia de entrenamiento de tres etapas para mejorar los resultados.

📊 Los investigadores también han publicado el conjunto de datos de video con anotaciones de acciones GF-Minecraft para apoyar el entrenamiento y la evaluación de GameFactory.