Los laboratorios ARC de Tencent, en colaboración con la Universidad City de Hong Kong, han lanzado recientemente un innovador proyecto de investigación llamado "AnimeGamer". Esta herramienta única permite una simulación ilimitada de la vida en un anime y cuenta con la capacidad de predecir el siguiente estado del juego. Esto significa que los usuarios tendrán la oportunidad de sumergirse en sus mundos de anime favoritos de una manera nunca antes vista, interactuando en tiempo real con el entorno dinámico del juego a través de instrucciones de lenguaje natural abiertas.
Encarnando a un protagonista de anime, disfrutando de una interacción ilimitada
La característica más destacada de AnimeGamer es su capacidad de generar videos de anime de longitud ilimitada con una narrativa coherente, asignando además datos como resistencia y estado de ánimo a los personajes. Los usuarios no solo pueden interpretar personajes de animes clásicos, como Sousuke de "Ponyo en el acantilado", sino que también pueden interactuar con el mundo que les rodea mediante sencillas instrucciones de lenguaje natural.
Aún más emocionante es la capacidad de AnimeGamer para romper la cuarta pared, permitiendo la fantástica colaboración entre personajes de diferentes obras de anime.
Imagine a Kiki de "Kiki: Entregas a domicilio" encontrándose con Pazu de "El castillo en el cielo", y Kiki enseñándole sus técnicas de vuelo. Este tipo de escena es posible en AnimeGamer. Esta herramienta demuestra su poderosa capacidad de generalización, capaz de comprender y ejecutar interacciones entre diferentes personajes y acciones de anime, abriendo a los usuarios un espacio creativo ilimitado.
Avance tecnológico: Un modelo de lenguaje multimodal de gran tamaño impulsa la experiencia inmersiva
La capacidad de AnimeGamer se basa en el uso de un modelo de lenguaje multimodal de gran tamaño (MLLM) avanzado. Este modelo se encarga de generar cada fotograma del estado del juego, incluyendo animaciones de personajes vívidas y la actualización de sus valores.
El proceso de entrenamiento de AnimeGamer se divide en tres etapas clave: primero, se modela mediante un codificador datos multimodales que contienen información de movimiento, y se entrena un decodificador basado en un modelo de difusión para reconstruir el video, incluyendo información sobre el rango de movimiento que representa la intensidad del movimiento; segundo, se entrena un MLLM que toma como entrada las instrucciones históricas del usuario y el estado actual del juego para predecir diversas manifestaciones del siguiente estado del juego; finalmente, mediante una fase de optimización, se ajusta el decodificador utilizando los resultados de la predicción del MLLM para mejorar aún más la calidad de la animación generada.
La llegada de AnimeGamer ha inyectado sin duda una nueva vitalidad a los amantes de la cultura anime y al campo de la investigación en inteligencia artificial. Sus funciones principales, la simulación ilimitada de la vida en un anime impulsada por la interacción con lenguaje natural y la predicción del estado futuro del juego, demuestran el enorme potencial de los modelos de lenguaje multimodal de gran tamaño en la generación de contenido creativo. A medida que se desbloqueen y mejoren más funciones, AnimeGamer tiene el potencial de convertirse en una nueva plataforma de interacción con anime llena de posibilidades e inesperadas sorpresas.
Enlace al proyecto: https://top.aibase.com/tool/animegamer