Im Bereich des Computersehens ist die mehrperspektivische 3D-Rekonstruktion eine wichtige und herausfordernde Aufgabe, insbesondere wenn eine präzise und skalierbare Darstellung erforderlich ist. Herkömmliche Hauptmethoden, wie z. B. DUSt3R, verwenden hauptsächlich paarweise Verarbeitung. Diese Methode erfordert bei der mehrperspektivischen Rekonstruktion komplexe globale Ausrichtungsverfahren, die sowohl zeitaufwendig als auch ressourcenintensiv sind. Um dieses Problem zu lösen, hat das Forschungsteam Fast3R vorgestellt, eine innovative mehrperspektivische Rekonstruktionstechnik, die bis zu 1500 Bilder in einer einzigen Vorwärtsausbreitung verarbeiten kann und die Rekonstruktionsgeschwindigkeit deutlich erhöht.

QQ_1741154118372.png

Der Kern von Fast3R ist eine auf Transformatoren basierende Architektur, die die parallele Verarbeitung von Informationen aus mehreren Ansichten ermöglicht und so den iterativen Ausrichtungsprozess überflüssig macht. Diese neue Methode wurde durch umfangreiche Experimente validiert und zeigt eine hervorragende Leistung bei der Kameraposen-Schätzung und 3D-Rekonstruktionsaufgaben. Sie erhöht die Inferenzgeschwindigkeit deutlich, reduziert die Fehlerakkumulation und macht Fast3R zu einer leistungsstarken Alternative für mehrperspektivische Anwendungen.

QQ_1741154184404.png

Bei der Implementierung von Fast3R wurden eine Reihe von Techniken für das Training und die Inferenz großer Modelle eingesetzt, um eine effiziente und skalierbare Verarbeitung zu gewährleisten. Diese Techniken umfassen FlashAttention2.0 (für speichereffiziente Aufmerksamkeitsberechnungen), DeepSpeed ZeRO-2 (für optimiertes verteiltes Training), Positions-Embedding-Interpolation (für einfaches kurzfristiges Training und langfristige Tests) und Tensor-Parallelität (zur Beschleunigung der Inferenz auf mehreren GPUs).

In Bezug auf die Rechenleistung zeigt Fast3R auf einer einzelnen A100-GPU eine hervorragende Leistung und einen deutlichen Vorteil gegenüber DUSt3R. Beispielsweise benötigt Fast3R bei der Verarbeitung von 32 Bildern mit einer Auflösung von 512 × 384 nur 0,509 Sekunden, während DUSt3R 129 Sekunden benötigt und bei der Verarbeitung von 48 Bildern bereits einen Speicherüberlauf hat. Fast3R zeichnet sich nicht nur durch seine Zeit- und Speicherersparnis aus, sondern zeigt auch eine gute Skalierbarkeit in Bezug auf Modell- und Datengröße, was auf ein großes Potenzial für die groß angelegte 3D-Rekonstruktion hindeutet.

Projektseite: https://fast3r-3d.github.io/

Wichtigste Punkte:

🌟 Die Fast3R-Technologie kann bis zu 1500 Bilder in einer einzigen Vorwärtsausbreitung verarbeiten und die Geschwindigkeit der 3D-Rekonstruktion deutlich erhöhen.

⚡ Die Transformer-Architektur von Fast3R unterstützt die parallele Verarbeitung und macht den komplexen Ausrichtungsprozess herkömmlicher Methoden überflüssig.

🚀 Im Vergleich zu DUSt3R zeigt Fast3R einen deutlichen Vorteil in Bezug auf Zeit- und Speicherverbrauch und eignet sich für groß angelegte 3D-Rekonstruktionsanwendungen.