ChinaZ.com, le 14 juin 2024 : ByteDance a publié Depth Anything V2, un nouveau modèle de profondeur qui améliore considérablement les performances de l'estimation de profondeur monoculaire. Par rapport à la version précédente, Depth Anything V1, la version V2 offre des détails plus fins, une robustesse accrue et une efficacité significativement améliorée, plus de 10 fois plus rapide que les modèles basés sur Stable Diffusion.

image.png

Caractéristiques clés :

Détails plus fins : Le modèle V2 a été optimisé pour fournir des prédictions de profondeur plus précises.

Efficacité et précision élevées : Par rapport aux modèles basés sur SD, le V2 présente une amélioration significative de l'efficacité et de la précision.

Support de modèles multi-échelles : Des modèles de différentes tailles sont proposés, avec des paramètres allant de 25M à 1,3B, pour s'adapter à différents scénarios d'application.

Pratiques clés : L'amélioration des performances du modèle a été obtenue grâce à l'utilisation d'images synthétiques à la place d'images réelles, à l'augmentation de la capacité du modèle enseignant et à l'utilisation d'images pseudo-annotées à grande échelle pour entraîner le modèle étudiant.

Trois pratiques clés pour améliorer les performances du modèle :

Utilisation d'images synthétiques : Les images synthétiques ont remplacé toutes les images réelles annotées, améliorant ainsi l'efficacité de l'entraînement du modèle.

Augmentation de la capacité du modèle enseignant : L'augmentation de la capacité du modèle enseignant a renforcé les capacités de généralisation du modèle.

Application d'images pseudo-annotées : L'utilisation d'un grand nombre d'images réelles pseudo-annotées comme pont pour entraîner le modèle étudiant a amélioré sa robustesse.

Support d'un large éventail de scénarios d'application :

Pour répondre aux besoins d'une large gamme d'applications, les chercheurs ont fourni des modèles de différentes tailles et ont utilisé leurs capacités de généralisation pour affiner le modèle en utilisant des mesures d'étiquettes de profondeur.

Une base d'évaluation diversifiée, comprenant des annotations de profondeur clairsemées, a été créée pour favoriser la recherche future.

Méthode d'entraînement basée sur des images synthétiques et réelles :

Les chercheurs ont d'abord entraîné le plus grand modèle enseignant sur des images synthétiques, puis ont généré des pseudo-étiquettes de haute qualité pour un grand nombre d'images réelles non annotées, et ont entraîné le modèle étudiant sur ces images réelles pseudo-annotées.

Le processus d'entraînement a utilisé 595 000 images synthétiques et plus de 62 millions d'images réelles pseudo-annotées.

Le lancement de Depth Anything V2 démontre l'innovation de ByteDance dans le domaine de l'apprentissage profond. Ses performances efficaces et précises laissent présager un large potentiel d'application de ce modèle dans le domaine de la vision par ordinateur.

Adresse du projet : https://depth-anything-v2.github.io/