Depth Anything

Entfesseln Sie die Kraft umfangreicher, unbeschrifteter Daten

Inländische AuswahlBildTiefenabschätzungBildverarbeitung

Depth Anything ist eine hochgradig praktische Lösung für robuste monokulare Tiefenabschätzung. Unser Ziel ist es, ein einfaches und leistungsstarkes Basismodell zu entwickeln, das Bilder aus beliebigen Situationen verarbeiten kann, ohne auf neuartige technische Module zurückzugreifen. Zu diesem Zweck haben wir eine Daten-Engine entwickelt, um den Datensatz zu erweitern, indem wir umfangreiche unbeschriftete Daten (ca. 62 Millionen) gesammelt und automatisch annotiert haben. Dies erweitert die Datenabdeckung erheblich und reduziert so den Generalisierungsfehler. Wir haben zwei einfache und effektive Strategien untersucht, um die Datenerweiterung vielversprechend zu gestalten. Erstens, durch die Nutzung von Data-Augmentation-Tools, um herausforderndere Optimierungsziele zu schaffen. Dies zwingt das Modell, aktiv nach zusätzlichen visuellen Informationen zu suchen und robuste Repräsentationen zu erlernen. Zweitens wurde eine unterstützende Aufsicht entwickelt, um das Modell zu zwingen, reichhaltige semantische Vorinformationen aus vorab trainierten Encodern zu übernehmen. Wir haben seine Zero-Shot-Fähigkeiten umfassend bewertet, einschließlich sechs öffentlicher Datensätze und zufällig aufgenommener Fotos. Es zeigt beeindruckende Generalisierungsfähigkeiten. Darüber hinaus haben wir durch Feinabstimmung mit metrischen Tiefeninformationen aus NYUv2 und KITTI neue SOTAs erzielt. Unser verbessertes Tiefenmodell führt auch zu einem besseren tiefenbedingten ControlNet. Unser Modell ist verfügbar unter https://github.com/LiheYoung/Depth-Anything.

Robuste monokulare Tiefenabschätzung
Datensatzvergrößerung und automatische Annotation
Data-Augmentation-Tools
Unterstützende Aufsicht
Zero-Shot-Leistungsbewertung
Feinabstimmung mit metrischen Tiefeninformationen

Geeignet für die Bildverarbeitung
Tiefenabschätzung und den Bereich Computer Vision.

Monokulare Tiefenabschätzung in autonomen Fahrsystemen
Bildverarbeitung in Virtual-Reality-Technologien
Geländemodellerstellung im Drohnenbereich

Website öffnen

Depth Anything Neueste Verkehrssituation

Monatliche Gesamtbesuche

4912

Absprungrate

55.70%

Durchschnittliche Seiten pro Besuch

1.2

Durchschnittliche Besuchsdauer

00:00:00

Depth Anything Besuchstrend

Depth Anything Geografische Verteilung der Besuche

Depth Anything Traffic-Quellen

Depth Anything Alternativen

Depth Anything — Entfesseln Sie die Kraft umfangreicher, unbeschrifteter Daten

Inländische Auswahl

Best AI Websites & Tools

Depth Anything

Depth Anything Neueste Verkehrssituation

Depth Anything Besuchstrend

Depth Anything Geografische Verteilung der Besuche

Depth Anything Traffic-Quellen

Depth Anything Alternativen

Depth Anything — Entfesseln Sie die Kraft umfangreicher, unbeschrifteter Daten

Rauschreduzierende Vision Transformer — Liefert saubere visuelle Merkmale

StreamDiffusion — Leistungsstarke Echtzeit-Bildgenerierung

HunyuanVideo-I2V — HunyuanVideo-I2V ist ein von Tencent entwickeltes Framework zur Bild-zu-Video-Generierung, basierend auf HunyuanVideo.

UniTok — UniTok ist ein einheitlicher visueller Tokenizer für die visuelle Generierung und das visuelle Verständnis.

olmOCR-7B-0225-Vorschau — olmOCR-7B-0225-Vorschau ist ein auf Qwen2-VL-7B-Instruct feingetuntes Modell zur optischen Zeichenerkennung (OCR) von Dokumenten, das die effiziente Umwandlung von Dokumenten in reinen Text ermöglicht.

Moonlight — Moonlight ist ein 16B-Parameter-Mixture-of-Experts-Modell (MoE), das mit dem Muon-Optimierer trainiert wurde und hervorragende Leistung zeigt.

VisionAgent — VisionAgent ist eine Bibliothek zur Codegenerierung für visuelle Aufgaben und unterstützt verschiedene LLM-Anbieter.

MatAnyone — MatAnyone ist ein stabiler Videomaskierungs-Framework mit zielgerichteter Spezifikation, geeignet für komplexe Hintergründe.

leapfusion-hunyuan-image2video — Eine neuartige Bild-zu-Video-Sampling-Technik, die auf dem Hunyuan-Modell basiert und eine hochwertige Videogenerierung ermöglicht.

SmolVLM-256M-Instruct — SmolVLM-256M ist das weltweit kleinste multimodale Modell und verarbeitet effizient Bild- und Texteingaben zur Erzeugung von Textausgaben.

googleocr-app — Eine hochpräzise OCR-Texterkennungsanwendung basierend auf Google Gemini 2.0.

Shapen — Wandelt Bilder in 3D-Modelle um, die zum Rendern, Animieren oder 3D-Drucken verwendet werden können.

美图云修 — Professionelle KI-Portraitretusche, blitzschnelle Bearbeitung, optimale Ergebnisse.

StructLDM — Ein strukturiertes latentes Diffusionsmodell zum Erlernen der 3D-Körperschaftsgenerierung aus 2D-Bildern.

FitDiT — FitDiT ist eine neuartige, auf Wahrnehmungsverstärkung basierende Technologie für das hochgenaue virtuelle Anprobieren von Kleidung.

Hallo3 — Eine hochdynamische, realistische Porträtbildanimationstechnik basierend auf einem Diffusions-Transformer-Netzwerk.

SVFR — SVFR ist ein einheitlicher Rahmen für die Video-Gesichtsrestaurierung.

InternVL2.5-38B-MPO — Die InternVL2.5-MPO-Modellreihe basiert auf InternVL2.5 und der Mixed Preference Optimization (MPO) und bietet herausragende Leistung.

STAR — STAR ist ein spatiotemporales Verstärkungsframework für die Superauflösung von realen Videos, das erstmals leistungsstarke Text-zu-Video-Diffusions-Prioren in die Superauflösung realer Videos integriert.

InternVL2_5-26B-MPO-AWQ — Ein fortschrittliches, multimodal großes Sprachmodell mit herausragender multimodaler Inferenzfähigkeit.

SHMT — Eine selbstüberwachte, hierarchische Make-up-Übertragungstechnik basierend auf latenten Diffusionsmodellen.

1.58-Bit FLUX — Ein fortschrittliches Text-zu-Bild-Generierungsmodell mit 1.58-Bit-Quantisierung.

InternVL2_5-8B-MPO — Großes multimodales Sprachmodell mit hervorragender Gesamtperformance.

TRELLIS 3D KI — Professionelles Tool zur einfachen Umwandlung von Bildern in 3D-Assets.

StereoCrafter — Ein Framework zur Umwandlung von Monosicht-Videos in immersive 3D-Stereobilder.

EdgeOne Pages Functions KI-OCR — KI-basierte optische Zeichenerkennung (OCR)-Dienst

InternVL2_5-4B-MPO — Großes, multimodales Sprachmodell, das herausragende Gesamtperformanz zeigt.

Valley — Multimodales großes Sprachmodell zur Verarbeitung von Text-, Bild- und Videodaten