Depth Anything
Entfesseln Sie die Kraft umfangreicher, unbeschrifteter Daten
Inländische AuswahlBildTiefenabschätzungBildverarbeitung
Depth Anything ist eine hochgradig praktische Lösung für robuste monokulare Tiefenabschätzung. Unser Ziel ist es, ein einfaches und leistungsstarkes Basismodell zu entwickeln, das Bilder aus beliebigen Situationen verarbeiten kann, ohne auf neuartige technische Module zurückzugreifen. Zu diesem Zweck haben wir eine Daten-Engine entwickelt, um den Datensatz zu erweitern, indem wir umfangreiche unbeschriftete Daten (ca. 62 Millionen) gesammelt und automatisch annotiert haben. Dies erweitert die Datenabdeckung erheblich und reduziert so den Generalisierungsfehler. Wir haben zwei einfache und effektive Strategien untersucht, um die Datenerweiterung vielversprechend zu gestalten. Erstens, durch die Nutzung von Data-Augmentation-Tools, um herausforderndere Optimierungsziele zu schaffen. Dies zwingt das Modell, aktiv nach zusätzlichen visuellen Informationen zu suchen und robuste Repräsentationen zu erlernen. Zweitens wurde eine unterstützende Aufsicht entwickelt, um das Modell zu zwingen, reichhaltige semantische Vorinformationen aus vorab trainierten Encodern zu übernehmen. Wir haben seine Zero-Shot-Fähigkeiten umfassend bewertet, einschließlich sechs öffentlicher Datensätze und zufällig aufgenommener Fotos. Es zeigt beeindruckende Generalisierungsfähigkeiten. Darüber hinaus haben wir durch Feinabstimmung mit metrischen Tiefeninformationen aus NYUv2 und KITTI neue SOTAs erzielt. Unser verbessertes Tiefenmodell führt auch zu einem besseren tiefenbedingten ControlNet. Unser Modell ist verfügbar unter https://github.com/LiheYoung/Depth-Anything.
Depth Anything Neueste Verkehrssituation
Monatliche Gesamtbesuche
4912
Absprungrate
55.70%
Durchschnittliche Seiten pro Besuch
1.2
Durchschnittliche Besuchsdauer
00:00:00