Con el rápido desarrollo de la tecnología de inteligencia artificial, la humanidad parece estar más cerca que nunca de los escenarios virtuales de la película "Matrix". Recientemente, se lanzó un simulador de mundo base de IA llamado "The Matrix", un logro innovador creado por un equipo completamente chino. Este simulador puede generar infinitamente videos de escenas realistas de alta fidelidad a 720p, y admite la interacción en tiempo real.
El simulador muestra un video de demostración de 14 minutos; sin embargo, puede generar contenido de hasta una hora de duración, que abarca múltiples escenarios como desiertos, praderas, cuerpos de agua y ciudades. Durante la experiencia, los usuarios pueden controlar el video en tiempo real usando las teclas W, A, S y D del teclado, experimentando imágenes dinámicas a 16 fotogramas por segundo.
El equipo de desarrollo del proyecto "The Matrix" está formado por miembros de Alibaba, la Universidad de Hong Kong, la Universidad de Waterloo y el Vector Institute de investigación de IA de Canadá. Su nombre, "The Matrix", está inspirado en una cita clásica de la película: "Este es el mundo que conoces; ahora solo existe en un sistema de simulación neurointeractiva que llamamos Matrix".
Indicaciones: admin@matrix: La escena representa un entorno urbano donde un largo camino recto se extiende bajo una autopista elevada o un puente, flanqueado por vallas que indican construcción o acceso restringido. La calle está marcada con dos líneas amarillas, y enormes pilares de hormigón sostienen la calzada superior, proyectando sombras debajo. En la pared izquierda, se ven números digitales rojos, posiblemente utilizados para monitoreo o alertas, acompañados de materiales de construcción y barricadas, lo que indica un desarrollo activo. En el lado derecho, la infraestructura y un letrero azul neón de 'PAWN SHOP' indican actividad comercial cercana. Más allá del paso elevado, la carretera conduce a altos edificios modernos, cuyas ventanas iluminadas muestran la vitalidad del paisaje urbano. Las farolas y las pantallas digitales proporcionan iluminación limitada, lo que aumenta la sensación futurista. A pesar de las señales de actividad, la carretera carece de vehículos o peatones, lo que contribuye a una sensación de silencio. La parte del cielo fuera del puente contrasta con las sombras que se proyectan debajo, mientras que la construcción circundante y la arquitectura avanzada crean la atmósfera de una ciudad que está en evolución y es futurista.
El punto culminante del proyecto es que ofrece un control de fotogramas sin precedentes, permitiendo que cada acción del usuario tenga una respuesta inmediata, como si estuviera inmerso en la escena. Los usuarios pueden experimentar conducir un automóvil a través de desiertos, bosques o ciudades en diferentes escenarios, desde una perspectiva en primera o tercera persona. Mediante el entrenamiento con datos de juegos AAA como "Forza Horizon 5" y "Cyberpunk 2077", el sistema puede generar escenas casi indistinguibles de la realidad. Más importante aún, los usuarios pueden disfrutar de una experiencia de video continua, atravesando sin problemas varios entornos.
Además de la generación ilimitada de videos y la alta calidad de las imágenes, "The Matrix" también cuenta con generalización de muestra cero. Esto significa que el simulador puede comprender y predecir el comportamiento y la interacción de los objetos en diferentes entornos sin datos de entrenamiento correspondientes.
Los datos de entrenamiento de la simulación provienen principalmente de datos supervisados de tres juegos AAA y una gran cantidad de videos no supervisados de escenas reales. A diferencia de investigaciones anteriores, la innovación de esta tecnología radica en su capacidad de aprendizaje, lo que le permite generar con precisión en entornos desconocidos.
Por ejemplo, el simulador puede mostrar un "BMW X3 conduciendo en un entorno" o la extraña imagen de un "coche nadando en el agua". Desde el punto de vista técnico, "The Matrix" consta de tres módulos principales: un módulo de interacción, un modelo de proceso de eliminación de ruido de ventana deslizante y un modelo de consistencia de flujo. El módulo de interacción se encarga de comprender la entrada del usuario e integrarla en la generación de video, mientras que el modelo de proceso de eliminación de ruido de ventana deslizante hace que la generación de videos largos sea factible, resolviendo el cuello de botella de los modelos tradicionales en la generación de secuencias largas. Finalmente, la integración del modelo de consistencia de flujo aumenta considerablemente la velocidad de inferencia, lo que permite la generación en tiempo real.
Los responsables del proyecto, Hongyang Zhang y Ruili Feng, indicaron que continuarán impulsando el desarrollo de esta tecnología con el objetivo de brindar a los usuarios una experiencia virtual más realista.
Indicaciones: El video muestra un primer plano de una mujer dentro de un automóvil, usando gafas de sol grandes y vestida de negro.
Acceso al proyecto: https://thematrix1999.github.io/
Artículo: https://thematrix1999.github.io/article/the_matrix.pdf
Puntos clave:
🌐 El simulador "The Matrix", versión IA de "Matrix", está disponible y admite la generación ilimitada de videos a 720p.
🎮 Los usuarios pueden controlar las escenas de video en tiempo real y experimentar imágenes dinámicas a 16 fotogramas por segundo.
🚀 Esta tecnología tiene la capacidad de generalización de muestra cero y puede predecir el comportamiento de los objetos en diferentes entornos.