L'une des avancées majeures dans le domaine de la vision par ordinateur est le modèle « Segmenter Tout ». Lancé par Meta en avril, ce modèle est capable de segmenter automatiquement tous les éléments d'une image. Ce modèle, basé sur un transformateur visuel à invites, a été entraîné sur plus d'un milliard de masques provenant de plus de 11 millions d'images. Les chercheurs ont également proposé une approche améliorée utilisant une méthode de pré-entraînement d'images masquées et le modèle SAM pour obtenir un encodeur ViT pré-entraîné de haute qualité. Cette méthode réduit la complexité de SAM tout en maintenant de bonnes performances, surpassant d'autres modèles pré-entraînés sur plusieurs tâches.
Même les petits modèles peuvent « tout segmenter » : Meta améliore SAM

机器之心
Cet article provient d'AIbase Daily
Bienvenue dans la section [AI Quotidien] ! Voici votre guide pour explorer le monde de l'intelligence artificielle chaque jour. Chaque jour, nous vous présentons les points forts du domaine de l'IA, en mettant l'accent sur les développeurs, en vous aidant à comprendre les tendances technologiques et à découvrir des applications de produits IA innovantes.