Mit dem rasanten Fortschritt der KI-Technologie rückt die virtuelle Realität aus Filmen wie „Matrix“ immer näher. Kürzlich wurde ein KI-basierter Weltsimulator namens „The Matrix“ vorgestellt. Diese innovative Entwicklung eines rein chinesischen Teams ermöglicht die unbegrenzte Erzeugung hochauflösender 720p-Realzeitvideos mit Echtzeitinteraktion.
Der Simulator zeigt ein 14-minütiges Demovideo; tatsächlich kann er bis zu einstündige Inhalte generieren, die verschiedene Szenarien wie Wüste, Savanne, Gewässer und Städte umfassen. Die Benutzer können über die Tasten W, A, S und D auf der Tastatur die Szene in Echtzeit steuern und 16 Bilder pro Sekunde erleben.
Das Entwicklerteam von „The Matrix“ besteht aus Mitgliedern von Alibaba, der Universität Hongkong, der Universität Waterloo und dem kanadischen KI-Forschungsinstitut Vector Institute. Der Name „The Matrix“ ist inspiriert von einem berühmten Zitat aus dem Film: „Dies ist die Welt, die du kennst; sie existiert jetzt nur noch in dem neuro-interaktiven Simulationssystem, das wir Matrix nennen.“
Eingabeaufforderung: admin@matrix: Die Szene zeigt eine städtische Umgebung mit einer langen, geraden Straße unter einer Hochstraße oder Brücke, flankiert von Zäunen, die auf Bauarbeiten oder Sperrgebiete hinweisen. Die Straße ist mit zwei gelben Linien markiert, und massive Betonsäulen stützen die darüber liegende Fahrbahn und werfen Schatten nach unten. An der linken Wand sind rote digitale Zahlen sichtbar, möglicherweise zur Überwachung oder Alarmierung, zusammen mit Baumaterialien und Absperrungen, die auf aktive Entwicklung hinweisen. Auf der rechten Seite zeigen Infrastruktur und ein blaues Neon-Schild „PAWN SHOP“ auf nahegelegene kommerzielle Aktivitäten. Jenseits der Überführung führt die Straße zu hohen modernen Gebäuden, deren beleuchtete Fenster die Lebendigkeit der Stadtlandschaft zeigen. Straßenlaternen und digitale Anzeigen sorgen für eine begrenzte Beleuchtung und tragen zum futuristischen Flair bei. Trotz der Anzeichen von Aktivität ist die Straße frei von Fahrzeugen oder Fußgängern, was zu einem Gefühl der Stille beiträgt. Der Teil des Himmels außerhalb der Brücke steht im Kontrast zu den Schatten darunter, während die umliegenden Bauarbeiten und die fortschrittliche Architektur eine Atmosphäre einer Stadt schaffen, die sich sowohl weiterentwickelt als auch futuristisch ist.
Das Kernstück des Projekts ist die beispiellose Kontrolle auf Frame-Ebene. Jede Benutzeraktion wird sofort umgesetzt, was ein immersives Erlebnis schafft. Benutzer können aus der Ich-Perspektive oder der dritten Person beispielsweise eine Autofahrt durch Wüste, Wald oder Stadt erleben. Durch das Training mit Daten von AAA-Spielen wie „Forza Horizon 5“ und „Cyberpunk 2077“ erzeugt das System nahezu realistische Szenarien. Besonders hervorzuheben ist die Möglichkeit, nahtlos zwischen verschiedenen Umgebungen zu wechseln.
Neben der unbegrenzten Videogenerierung und der hohen Bildqualität bietet „The Matrix“ auch Zero-Shot-Generalisierung. Das bedeutet, dass der Simulator das Verhalten und die Interaktion von Objekten in verschiedenen Umgebungen verstehen und vorhersagen kann, ohne entsprechende Trainingsdaten zu benötigen.
Die Trainingsdaten stammen hauptsächlich aus überwachten Daten von drei AAA-Spielen und einer großen Menge an unüberwachten Videos aus realen Szenarien. Im Gegensatz zu früheren Forschungsarbeiten liegt die Innovation dieser Technologie in ihrer Lernfähigkeit, die eine präzise Generierung in unbekannten Umgebungen ermöglicht.
So kann der Simulator beispielsweise einen „BMW X3 in einer bestimmten Umgebung“ oder ein „Auto, das im Wasser schwimmt“ darstellen. Technisch gesehen besteht „The Matrix“ aus drei Modulen: einem Interaktionsmodul, einem gleitenden Entrauscher-Prozessmodell und einem Konsistenzmodell für den Datenfluss. Das Interaktionsmodul verarbeitet Benutzereingaben und integriert sie in die Videogenerierung. Das gleitende Entrauscher-Prozessmodell ermöglicht die Generierung langer Videos und löst den Engpass traditioneller Modelle bei der Generierung langer Sequenzen. Durch die Integration des Konsistenzmodells für den Datenfluss wird die Inferenzgeschwindigkeit deutlich erhöht, wodurch die Echtzeitgenerierung ermöglicht wird.
Projektleiter Hongyang Zhang und Ruili Feng gaben an, die Technologie weiterzuentwickeln und den Benutzern ein noch realistischeres virtuelles Erlebnis zu bieten.
Eingabeaufforderung: Das Video zeigt eine Nahaufnahme einer Frau in einem Auto, die eine übergroße Sonnenbrille trägt und schwarz gekleidet ist.
Projektseite: https://thematrix1999.github.io/
Forschungsarbeit: https://thematrix1999.github.io/article/the_matrix.pdf
Wichtigste Punkte:
🌐 Der KI-basierte „Matrix“-Simulator „The Matrix“ ist da und generiert unbegrenzt 720p-Videos.
🎮 Benutzer können Szenen in Echtzeit steuern und 16 Bilder pro Sekunde erleben.
🚀 Die Technologie verfügt über Zero-Shot-Generalisierung und kann das Verhalten von Objekten in verschiedenen Umgebungen vorhersagen.