Depth Anything

Liberando o poder de dados não rotulados em larga escala

Seleção NacionalImagemEstimativa de profundidadeProcessamento de imagem

Depth Anything é uma solução altamente prática para estimativa de profundidade monocular robusta. Nosso objetivo é construir um modelo básico simples e poderoso que processe qualquer imagem em qualquer situação, sem buscar módulos tecnológicos inovadores. Para isso, expandimos o conjunto de dados por meio de um mecanismo de processamento de dados, coletando e anotando automaticamente dados não rotulados em larga escala (cerca de 62 milhões), aumentando significativamente a cobertura dos dados e, consequentemente, reduzindo o erro de generalização. Investigamos duas estratégias simples e eficazes que tornam a expansão de dados promissora. Primeiro, criamos objetivos de otimização mais desafiadores por meio do uso de ferramentas de aumento de dados. Isso força o modelo a buscar ativamente conhecimento visual adicional e obter uma representação robusta. Segundo, desenvolvemos supervisão auxiliar para forçar o modelo a herdar ricos priors semânticos de um codificador pré-treinado. Avaliamos extensivamente sua capacidade zero-shot, incluindo seis conjuntos de dados públicos e fotos tiradas aleatoriamente. Ele demonstra uma capacidade de generalização impressionante. Além disso, ao ajustá-lo fino com informações de profundidade métricas do NYUv2 e KITTI, estabelecemos novos SOTAs. Nosso melhor modelo de profundidade também resulta em um melhor ControlNet condicionado à profundidade. Nosso modelo está disponível em https://github.com/LiheYoung/Depth-Anything.

Estimativa de profundidade monocular robusta
Expansão e anotação automática de conjuntos de dados
Ferramentas de aumento de dados
Supervisão auxiliar
Avaliação de capacidade zero-shot
Ajuste fino com informações de profundidade métricas

Aplicável em processamento de imagem
estimativa de profundidade e visão computacional.

Usado para estimativa de profundidade monocular em sistemas de direção autônoma
Aplicado ao processamento de imagem em realidade virtual
Usado em drones para reconstrução de terreno

Abrir Site

Depth Anything Situação do Tráfego Mais Recente

Total de Visitas Mensais

4912

Taxa de Rejeição

55.70%

Média de Páginas por Visita

1.2

Duração Média da Visita

00:00:00

Depth Anything Tendência de Visitas

Depth Anything Distribuição Geográfica das Visitas

Depth Anything Fontes de Tráfego

Depth Anything Alternativas

Depth Anything — Liberando o poder de dados não rotulados em larga escala

Seleção Nacional

•Estimativa de profundidade•Processamento de imagem

2274

Depth Anything V2 — Modelo avançado de estimativa de profundidade monocular

Vídeo

Best AI Websites & Tools

Depth Anything

Depth Anything Situação do Tráfego Mais Recente

Depth Anything Tendência de Visitas

Depth Anything Distribuição Geográfica das Visitas

Depth Anything Fontes de Tráfego

Depth Anything Alternativas

Depth Anything — Liberando o poder de dados não rotulados em larga escala

Depth Anything V2 — Modelo avançado de estimativa de profundidade monocular

Gerador de Fotos de Perfil com IA — Gerador de fotos de perfil com IA gratuito online, que transforma fotos comuns em fotos de perfil profissionais de alta qualidade.

Animate Anyone 2 — Animate Anyone 2 é uma ferramenta de geração de animação de imagens de personagens de alta fidelidade, com suporte à adaptação ambiental.

美图云修 — Retoque profissional de retrato com IA, edição ultrarrápida e efeitos incríveis.

StructLDM — Um modelo de difusão latente estruturado que aprende a gerar corpos humanos 3D a partir de imagens 2D.

FitDiT — FitDiT é uma nova tecnologia de aumento de percepção de roupas para provadores virtuais de alta fidelidade.

SVFR — SVFR é uma estrutura unificada para restauração de rostos em vídeo.

InternVL2_5-38B-MPO — Modelo da série InternVL2.5-MPO, baseado no InternVL2.5 e otimização de preferência mista, apresentando desempenho excepcional.

STAR — STAR é uma estrutura de aprimoramento espaço-temporal para super-resolução de vídeo do mundo real, integrando pela primeira vez um poderoso prior conhecimento de difusão de texto para vídeo em super-resolução de vídeo do mundo real.

StereoCrafter — Framework que converte vídeos monaurais em vídeos 3D estereoscópicos imersivos.

EdgeOne Pages Functions AI OCR — Serviço de reconhecimento de texto em imagem impulsionado por IA

LuminaBrush — Ferramenta de pintura de iluminação para modelos de difusão de texto para imagem

Prompt Depth Anything — Método de estimativa de profundidade de alta resolução e alta precisão

Fluxo de Trabalho de Remoção de Marca d'água ComfyUI — Fluxo de trabalho ComfyUI para remoção de marca d'água, remoção de marcas d'água com um clique.

TryOffDiff — Técnica de prova virtual de reconstrução de vestuário de alta fidelidade baseada em modelo de difusão

Aiarty Image Matting — Software de recorte de imagem avançado baseado em IA, oferecendo remoção de fundo precisa.

stable-diffusion-webui-simple-manga-maker — Uma extensão para criar mangás simples.

ComfyUI_AdvancedRefluxControl — Ferramenta de processamento de imagem que personaliza a intensidade de efeitos Redux

Neural Magic — Especialistas em implantação e inferência otimizada de modelos de IA

face_anon_simple — Tecnologia de anonimização facial que preserva detalhes importantes enquanto protege eficazmente a privacidade.

Fashion-VDM — Modelo de difusão de vídeo para prova virtual.

ComfyUI-GIMM-VFI — Ferramenta de interpolação de quadros ComfyUI-GIMM-VFI

Excerptor — Extrai texto sublinhado ou com anotações manuscritas de livros físicos.

Flux.1 Lite — Modelo de autoencoder variacional com 8B de parâmetros, usado para geração eficiente de imagem a partir de texto.

Long-LRM — Modelo de reconstrução 3D gaussiana de alta eficiência, permitindo reconstrução rápida de grandes cenários.

FaceFusion Labs — Plataforma líder em manipulação facial

FacePoke — IA revoluciona suas expressões faciais

Depth Pro — Modelo de estimativa de profundidade monocular de alta precisão