Grâce aux progrès fulgurants de l'intelligence artificielle, l'univers virtuel du film Matrix semble plus proche que jamais. Récemment, un simulateur de monde basé sur l'IA, baptisé « The Matrix », a été lancé. Développé par une équipe entièrement chinoise, ce résultat innovant permet de générer indéfiniment des vidéos de scènes réalistes en 720p haute fidélité, avec interaction en temps réel.
Le simulateur présente une vidéo de démonstration de 14 minutes, mais il peut en réalité générer du contenu d'une heure, couvrant divers environnements tels que des déserts, des prairies, des étendues d'eau et des villes. L'utilisateur peut contrôler la scène en temps réel grâce aux touches W, A, S et D du clavier, et apprécier des images dynamiques à 16 images par seconde.
L'équipe de développement de « The Matrix » regroupe des membres d'Alibaba, de l'Université de Hong Kong, de l'Université de Waterloo et du Vector Institute, un centre de recherche canadien en IA. Le nom « The Matrix » est inspiré d'une réplique culte du film : « C'est le monde que vous connaissez ; il n'existe désormais que dans un système de simulation neuro-interactive que nous appelons Matrix. »
Invite : admin@matrix : La scène représente un environnement urbain où une longue route droite s'étend sous un viaduc ou un pont surélevé, flanquée de barrières indiquant des travaux ou un accès restreint. La rue est marquée de deux lignes jaunes, et d'énormes piliers en béton soutiennent la chaussée supérieure, projetant des ombres en dessous. Sur le mur de gauche, des chiffres rouges numériques sont visibles, probablement utilisés pour la surveillance ou les alertes, accompagnés de matériaux de construction et de barricades, signifiant un développement actif. Sur la droite, des infrastructures et une enseigne néon bleue « PAWN SHOP » indiquent une activité commerciale à proximité. Au-delà du pont, la route mène à de hauts immeubles modernes, dont les fenêtres éclairées témoignent du dynamisme du paysage urbain. Des lampadaires et des écrans numériques fournissent un éclairage limité, ajoutant à l'ambiance futuriste. Malgré les signes d'activité, la route est dépourvue de véhicules ou de piétons, contribuant à un sentiment de silence. La partie du ciel en dehors du pont contraste avec les ombres projetées en dessous, tandis que la construction environnante et l'architecture avancée créent l'atmosphère d'une ville à la fois en évolution et futuriste.
Le point fort de ce projet réside dans son contrôle au niveau de l'image, permettant une réponse immédiate à chaque action de l'utilisateur, pour une immersion totale. L'utilisateur peut expérimenter la conduite d'une voiture à travers le désert, la forêt ou la ville, en vue à la première ou à la troisième personne. Entraîné sur des données de jeux AAA tels que Forza Horizon 5 et Cyberpunk 2077, le système génère des scènes presque indiscernables de la réalité. Plus important encore, l'utilisateur peut profiter d'une expérience vidéo continue, traversant différents environnements sans interruption.
Au-delà de la génération infinie de vidéos et de la haute qualité des images, « The Matrix » possède une capacité de généralisation zéro-échantillon. Cela signifie que le simulateur peut comprendre et prédire le comportement et les interactions des objets dans différents environnements, même sans données d'entraînement correspondantes.
Les données d'entraînement du simulateur proviennent principalement de données supervisées de trois jeux AAA et de nombreuses vidéos non supervisées de scènes réelles. Contrairement aux recherches précédentes, l'innovation de cette technologie réside dans sa capacité d'apprentissage, lui permettant de générer des images précises dans des environnements inconnus.
Par exemple, le simulateur peut montrer un « BMW X3 roulant dans un environnement » ou une scène insolite comme « une voiture nageant dans l'eau ». D'un point de vue technique, « The Matrix » est composé de trois modules : un module d'interaction, un modèle de processus de débruitage par fenêtre glissante et un modèle de cohérence de flux. Le module d'interaction est chargé de comprendre les entrées de l'utilisateur et de les intégrer à la génération vidéo, tandis que le modèle de processus de débruitage par fenêtre glissante rend la génération de longues vidéos possible, en résolvant les goulots d'étranglement des modèles traditionnels dans la génération de longues séquences. Enfin, l'intégration du modèle de cohérence de flux améliore considérablement la vitesse d'inférence, permettant une génération en temps réel.
Hongyang Zhang et Ruili Feng, les responsables du projet, ont déclaré qu'ils continueraient à faire progresser cette technologie afin d'offrir aux utilisateurs une expérience virtuelle encore plus réaliste.
Invite : La vidéo présente un gros plan d'une femme à l'intérieur d'une voiture, portant des lunettes de soleil surdimensionnées et vêtue de noir.
Accès au projet : https://thematrix1999.github.io/
Article : https://thematrix1999.github.io/article/the_matrix.pdf
Points clés :
🌐 Le simulateur « The Matrix », version IA de Matrix, voit le jour et permet de générer indéfiniment des vidéos en 720p.
🎮 L'utilisateur peut contrôler les scènes vidéo en temps réel et profiter d'images dynamiques à 16 images par seconde.
🚀 Cette technologie possède une capacité de généralisation zéro-échantillon et peut prédire le comportement des objets dans différents environnements.