Forscher der Stanford University und des Massachusetts Institute of Technology (MIT) haben gemeinsam ein KI-System namens WonderWorld entwickelt, das in Echtzeit 3D-Szenen aus einem einzelnen Bild generiert. Diese neue Technologie ermöglicht es Nutzern, schrittweise virtuelle Umgebungen zu erstellen und zu erkunden und die Inhalte und das Layout der generierten Szenen einfach zu steuern.
Die größte Herausforderung bei WonderWorld bestand in der schnellen Generierung von 3D-Szenen. Bisherige Methoden benötigten in der Regel Minuten bis Stunden, um eine Szene zu generieren, während WonderWorld auf einer Nvidia A6000 GPU innerhalb von nur 10 Sekunden eine neue 3D-Umgebung erstellen kann. Diese Geschwindigkeit ermöglicht Echtzeit-Interaktionen und stellt einen bedeutenden Fortschritt in diesem Bereich dar.
WonderWorld funktioniert, indem es von einem Eingabebild ausgehend eine erste 3D-Szene generiert. Anschließend durchläuft das System eine Schleife, in der abwechselnd Szenenbilder und entsprechende FLAGS-Darstellungen generiert werden. Der Nutzer kann die Generierung neuer Szenen durch Bewegen der Kamera steuern und mithilfe von Texteingaben die gewünschte Szenenart angeben.
Die FLAGS-Darstellung besteht aus drei Ebenen: Vordergrund, Hintergrund und Himmel. Jede Ebene enthält eine Reihe von Elementen, die als „Surfels“ bezeichnet werden und durch 3D-Position, Ausrichtung, Skalierung, Transparenz und Farbe definiert sind. Diese Surfels werden durch die Schätzung von Tiefen- und Normalenkarten initialisiert und dann optimiert, um die endgültige Szene zu erstellen.
Um geometrische Verzerrungen bei Szenenübergängen zu reduzieren, verwendet WonderWorld einen gesteuerten Tiefendiffusionsprozess. Diese Methode verwendet ein vortrainiertes Tiefenkarten-Diffusionsmodell, um die Tiefenschätzung an die Geometrie der bestehenden Teile der Szene anzupassen.
Experimente zeigen, dass WonderWorld in Bezug auf Geschwindigkeit und visuelle Qualität deutlich besser abschneidet als frühere Methoden zur 3D-Szenerie-Generierung. In Nutzerstudien wurden die generierten Szenen als visuell überzeugender als die von anderen Methoden generierten Szenen bewertet.
Obwohl WonderWorld in Geschwindigkeit und visueller Qualität deutlich besser als frühere Methoden abschneidet, weist es dennoch einige Einschränkungen auf. So kann es beispielsweise nur Vorderflächen erstellen, was den Betrachtungswinkel des Nutzers in der virtuellen Welt auf etwa 45 Grad begrenzt. Darüber hinaus sehen die generierten Welten derzeit wie Papierschnittbilder aus, und bei der Verarbeitung detaillierter Objekte wie Bäume können „Löcher“ oder „schwebende“ Elemente auftreten.
Trotz dieser Einschränkungen sind die Forscher vom Potenzial von WonderWorld überzeugt, insbesondere in der Spieleentwicklung, der virtuellen Realität und der Erstellung dynamischer virtueller Welten. Die in der Studie von Nutzern als visuell überzeugender bewerteten Szenen zeigen das breite Anwendungsspektrum dieser Technologie.
Projektseite: https://kovenyu.com/wonderworld/
Wichtigste Punkte:
🌟 WonderWorld AI kann aus nur einem Foto in Echtzeit 3D-Szenen generieren, und das in nur 10 Sekunden.
🎮 Das System ermöglicht es Nutzern, die Inhalte und das Layout der Szene zu steuern, was es ideal für die Spieleentwicklung und VR-Anwendungen macht.
🚧 Die aktuelle Technologie weist einige Einschränkungen auf, hauptsächlich die Generierung nur von Vorderflächen und unzureichende Detailverarbeitung.