Google Vision Transformer est un modèle de reconnaissance d'image basé sur un encodeur Transformer, pré-entraîné sur un ensemble de données d'images à grande échelle et utilisable pour des tâches telles que la classification d'images. Ce modèle a été pré-entraîné sur l'ensemble de données ImageNet-21k et finement ajusté sur ImageNet. Il possède une excellente capacité d'extraction de caractéristiques d'images. Il traite les données d'image en divisant l'image en blocs de taille fixe et en intégrant linéairement ces blocs. De plus, un encodage de position est ajouté avant la séquence d'entrée pour permettre le traitement des données séquentielles dans l'encodeur Transformer. Les utilisateurs peuvent ajouter une couche linéaire au-dessus de l'encodeur pré-entraîné pour effectuer des tâches telles que la classification d'images. L'avantage de Google Vision Transformer réside dans sa puissante capacité d'apprentissage des caractéristiques d'images et sa grande polyvalence. Ce modèle est disponible gratuitement.