ChinaZ.com, 14 de junio de 2024: ByteDance ha lanzado Depth Anything V2, un nuevo modelo de profundidad que logra una mejora significativa en la estimación de profundidad monocular. En comparación con su predecesor, Depth Anything V1, la versión V2 presenta detalles más finos, mayor robustez y una eficiencia significativamente mejorada, siendo más de 10 veces más rápido que los modelos basados en Stable Diffusion.
Características clave:
Detalles más finos: El modelo V2 ha sido optimizado para proporcionar predicciones de profundidad más detalladas.
Alta eficiencia y precisión: En comparación con los modelos basados en SD, el V2 muestra una mejora significativa en eficiencia y precisión.
Soporte para modelos de múltiples escalas: Se ofrecen modelos de diferentes tamaños, con parámetros que van desde 25M hasta 1.3B, para adaptarse a diversas aplicaciones.
Prácticas clave: Se mejoró el rendimiento del modelo mediante el uso de imágenes sintéticas en lugar de imágenes reales, el aumento de la capacidad del modelo maestro y el uso de imágenes con pseudoetiquetas a gran escala para entrenar el modelo alumno.
Tres prácticas clave para mejorar el rendimiento del modelo:
Uso de imágenes sintéticas: Se sustituyeron todas las imágenes reales etiquetadas con imágenes sintéticas, mejorando la eficiencia del entrenamiento del modelo.
Aumento de la capacidad del modelo maestro: Al aumentar la capacidad del modelo maestro, se mejoró la capacidad de generalización del modelo.
Aplicación de imágenes con pseudoetiquetas: Se utilizaron imágenes reales con pseudoetiquetas a gran escala como puente para entrenar el modelo alumno, mejorando su robustez.
Soporte para una amplia gama de escenarios de aplicación:
Para satisfacer las diversas necesidades de aplicación, los investigadores proporcionaron modelos de diferentes escalas y utilizaron su capacidad de generalización para ajustar finamente mediante la medición de etiquetas de profundidad.
Se creó un conjunto de evaluación diverso que incluye anotaciones de profundidad dispersas para fomentar futuras investigaciones.
Método de entrenamiento basado en imágenes sintéticas y reales:
Los investigadores entrenaron primero el modelo maestro más grande en imágenes sintéticas, luego generaron pseudoetiquetas de alta calidad para una gran cantidad de imágenes reales sin etiquetar y entrenaron el modelo alumno en estas imágenes reales con pseudoetiquetas.
El proceso de entrenamiento utilizó 595.000 imágenes sintéticas y más de 62 millones de imágenes reales con pseudoetiquetas.
El lanzamiento de Depth Anything V2 demuestra la capacidad innovadora de ByteDance en el campo del aprendizaje profundo, y su alto rendimiento y precisión sugieren un amplio potencial de aplicación en el campo de la visión por computadora.
Dirección del proyecto: https://depth-anything-v2.github.io/