Avancées en vision par ordinateur

L'une des avancées majeures dans le domaine de la vision par ordinateur est le modèle « Segmenter Tout ». Lancé par Meta en avril, ce modèle est capable de segmenter automatiquement tous les éléments d'une image. Ce modèle, basé sur un transformateur visuel à invites, a été entraîné sur plus d'un milliard de masques provenant de plus de 11 millions d'images. Les chercheurs ont également proposé une approche améliorée utilisant une méthode de pré-entraînement d'images masquées et le modèle SAM pour obtenir un encodeur ViT pré-entraîné de haute qualité. Cette méthode réduit la complexité de SAM tout en maintenant de bonnes performances, surpassant d'autres modèles pré-entraînés sur plusieurs tâches.