ChinaZ.com (站长之家) - 14 de junho de 2024: A ByteDance lançou a nova geração do modelo de profundidade Depth Anything V2, que apresenta uma melhoria significativa no desempenho da estimativa de profundidade monocromática. Em comparação com a versão anterior, Depth Anything V1, a versão V2 possui detalhes mais refinados e maior robustez, além de uma melhoria significativa na eficiência, sendo mais de 10 vezes mais rápido do que os modelos baseados em Stable Diffusion.
Características principais:
Detalhes mais refinados: O modelo V2 foi otimizado em detalhes, fornecendo previsões de profundidade mais precisas.
Alta eficiência e precisão: Em comparação com os modelos construídos com base em SD, o V2 apresenta melhorias significativas em eficiência e precisão.
Suporte a modelos de múltiplas escalas: São oferecidos modelos de diferentes escalas, com parâmetros variando de 25M a 1,3B, para atender a diferentes cenários de aplicação.
Práticas-chave: A melhoria do desempenho do modelo foi alcançada através do uso de imagens sintéticas em substituição a imagens reais, aumento da capacidade do modelo professor e utilização de imagens com pseudo-anotações em larga escala para treinar o modelo aluno.
Três práticas-chave para melhorar o desempenho do modelo:
Uso de imagens sintéticas: Imagens sintéticas substituíram todas as imagens reais anotadas, melhorando a eficiência do treinamento do modelo.
Aumento da capacidade do modelo professor: Ao aumentar a capacidade do modelo professor, a capacidade de generalização do modelo foi aprimorada.
Aplicação de imagens com pseudo-anotações: O uso de imagens reais com pseudo-anotações em larga escala como ponte para treinar o modelo aluno melhorou a robustez do modelo.
Suporte a amplos cenários de aplicação:
Para atender às diversas necessidades de aplicação, os pesquisadores forneceram modelos de diferentes escalas e utilizaram sua capacidade de generalização para ajustar finamente as etiquetas de profundidade através de métricas.
Foi criado um benchmark de avaliação diversificado, contendo anotações de profundidade esparsas, para promover pesquisas futuras.
Método de treinamento baseado em imagens sintéticas e reais:
Os pesquisadores primeiro treinaram o maior modelo professor em imagens sintéticas e, em seguida, geraram pseudo-rótulos de alta qualidade para um grande número de imagens reais não anotadas, treinando o modelo aluno nessas imagens reais com pseudo-rótulos.
O processo de treinamento utilizou 595.000 imagens sintéticas e mais de 62 milhões de imagens reais com pseudo-rótulos.
O lançamento do modelo Depth Anything V2 demonstra a capacidade de inovação da ByteDance na área de aprendizado profundo, e seu desempenho eficiente e preciso indica um amplo potencial de aplicação deste modelo na área de visão computacional.
Endereço do projeto: https://depth-anything-v2.github.io/