Das Beijing Zhiyuan Institut für Künstliche Intelligenz (BAAI) hat kürzlich die Einführung von See3D, einem innovativen 3D-Generierungsmodell, bekannt gegeben. Dieses Modell lernt aus großen Mengen unbeschrifteter Internetvideos. Dieser technologische Durchbruch stellt einen wichtigen Schritt in Richtung des Konzepts „See Video, Get 3D“ dar. See3D ist nicht auf herkömmliche Kameraparameter angewiesen, sondern verwendet eine visuelle Konditionstechnik. Es generiert allein anhand visueller Hinweise aus Videos mehrperspektivische Bilder mit steuerbarer Kamerarichtung und geometrischer Konsistenz. Dieses Verfahren vermeidet den Bedarf an teuren 3D- oder Kameramarks und ermöglicht ein effizientes Lernen von 3D-A-priori-Informationen aus Internetvideos.
See3D unterstützt die 3D-Generierung aus Text, Einzelansichten und spärlichen Ansichten und ermöglicht 3D-Bearbeitung und Gauß-Rendering. Das Modell, der Code und eine Demo wurden Open Source bereitgestellt, um detailliertere Informationen zu ermöglichen. Die Funktionsweise von See3D umfasst das Erschließen interaktiver 3D-Welten, die 3D-Rekonstruktion basierend auf spärlichen Bildern, die 3D-Generierung offener Welten und die 3D-Generierung basierend auf Einzelansichten. Diese Funktionen machen See3D in einer Vielzahl von 3D-Kreationsanwendungen vielseitig einsetzbar.
Die Forschungsmotivation liegt in den Einschränkungen von 3D-Daten. Die traditionelle Erfassung von 3D-Daten ist zeitaufwendig und teuer. Videos hingegen, mit ihrer mehrperspektivischen Verknüpfung und Kamerabwegungsinformationen, sind ein leistungsstarkes Werkzeug zur Darstellung von 3D-Strukturen. Die von See3D vorgeschlagene Lösung umfasst den Aufbau von Datensätzen, das Modelltraining und das 3D-Generierungsframework. Das Team hat Videodaten automatisch gefiltert und den WebVi3D-Datensatz erstellt, der 16 Millionen Videoclips und 320 Millionen Bilder umfasst. See3D generiert reine 2D-visuelle Signale, indem zeitabhängiges Rauschen zu maskierten Videodaten hinzugefügt wird. Dies unterstützt das Training skalierbarer mehrperspektivischer Diffusionsmodelle und ermöglicht eine 3D-Generierung ohne Kamerakonditionierung.
Die Vorteile von See3D liegen in der Skalierbarkeit der Daten, der Kamerasteuerung und der geometrischen Konsistenz. Die Trainingsdaten stammen aus riesigen Mengen an Internetvideos. Der erstellte mehrperspektivische Datensatz erreicht eine Größenordnungssteigerung. Das Modell unterstützt die Szenengenerierung bei beliebig komplexen Kamerapfaden und behält dabei die geometrische Konsistenz zwischen aufeinanderfolgenden Bildern bei.
Durch die Erweiterung des Datensatzes bietet See3D neue Ansätze für die 3D-Generierungstechnologie. Es wird gehofft, dass diese Arbeit die 3D-Forschungsgemeinschaft dazu anregen wird, sich mit großen Mengen unbeschrifteter Kameradaten zu befassen, die Kosten für die 3D-Datenerfassung zu senken und die Lücke zu bestehenden proprietären 3D-Lösungen zu schließen.
Projektseite: https://vision.baai.ac.cn/see3d