ChinaZ.com (站长之家) berichtete am 14. Juni: ByteDance hat sein neues Depth Anything V2-Tiefenmodell veröffentlicht, das im Bereich der monokularen Tiefenabschätzung eine deutliche Leistungssteigerung erzielt. Im Vergleich zur Vorgängerversion Depth Anything V1 bietet V2 feinere Details, höhere Robustheit und eine deutlich verbesserte Effizienz – mehr als 10-mal schneller als Modelle auf Basis von Stable Diffusion.
Schlüsselmerkmale:
Feinere Details: Das V2-Modell wurde in Bezug auf die Details optimiert und liefert präzisere Tiefenvorhersagen.
Hohe Effizienz und Genauigkeit: Im Vergleich zu Modellen auf SD-Basis bietet V2 eine deutlich höhere Effizienz und Genauigkeit.
Unterstützung für Modelle verschiedener Größen: Es werden Modelle unterschiedlicher Größen mit Parametern von 25M bis 1,3B angeboten, um verschiedene Anwendungsfälle abzudecken.
Schlüsselpraktiken: Durch den Einsatz von synthetischen Bildern anstelle von echten Bildern, die Erweiterung der Kapazität des Lehrermodells und die Verwendung von massenhaft pseudo-annotierten Bildern zum Trainieren des Schülermodells wurde die Modellleistung verbessert.
Drei Schlüsselpraktiken zur Verbesserung der Modellleistung:
Verwendung synthetischer Bilder: Synthetische Bilder ersetzten alle annotierten echten Bilder, was die Effizienz des Modelltrainings erhöhte.
Erweiterung der Kapazität des Lehrermodells: Durch die Erweiterung der Kapazität des Lehrermodells wurde die Generalisierungsfähigkeit des Modells verbessert.
Anwendung von pseudo-annotierten Bildern: Massenhaft pseudo-annotierte echte Bilder wurden als Brücke verwendet, um das Schülermodell zu trainieren und dessen Robustheit zu verbessern.
Unterstützung für breite Anwendungsszenarien:
Um den vielfältigen Anwendungsanforderungen gerecht zu werden, bieten die Forscher Modelle unterschiedlicher Größe an und nutzen deren Generalisierungsfähigkeit durch die Messung von Tiefenmarkierungen zur Feinabstimmung.
Es wurde eine vielfältige Bewertungsbasis mit spärlichen Tiefenannotationen erstellt, um zukünftige Forschung zu fördern.
Trainingsmethode basierend auf synthetischen und echten Bildern:
Die Forscher trainierten zunächst das größte Lehrermodell mit synthetischen Bildern und generierten dann hochwertige Pseudo-Labels für eine große Menge nicht annotierter echter Bilder. Auf diesen pseudo-annotierten echten Bildern wurde dann das Schülermodell trainiert.
Der Trainingsprozess umfasste 595.000 synthetische Bilder und über 62 Millionen echt pseudo-annotierte Bilder.
Die Einführung des Depth Anything V2-Modells zeigt die Innovationskraft von ByteDance im Bereich des Deep Learnings. Seine effiziente und genaue Leistung deutet auf ein breites Anwendungspotenzial im Bereich der Computer Vision hin.
Projektseite: https://depth-anything-v2.github.io/