Google Vision Transformer
Modèle de reconnaissance d'image basé sur le Transformer
Produit OrdinaireImageIntelligence artificielleReconnaissance d'image
Google Vision Transformer est un modèle de reconnaissance d'image basé sur un encodeur Transformer, pré-entraîné sur un ensemble de données d'images à grande échelle et utilisable pour des tâches telles que la classification d'images. Ce modèle a été pré-entraîné sur l'ensemble de données ImageNet-21k et finement ajusté sur ImageNet. Il possède une excellente capacité d'extraction de caractéristiques d'images. Il traite les données d'image en divisant l'image en blocs de taille fixe et en intégrant linéairement ces blocs. De plus, un encodage de position est ajouté avant la séquence d'entrée pour permettre le traitement des données séquentielles dans l'encodeur Transformer. Les utilisateurs peuvent ajouter une couche linéaire au-dessus de l'encodeur pré-entraîné pour effectuer des tâches telles que la classification d'images. L'avantage de Google Vision Transformer réside dans sa puissante capacité d'apprentissage des caractéristiques d'images et sa grande polyvalence. Ce modèle est disponible gratuitement.
Google Vision Transformer Dernière situation du trafic
Nombre total de visites mensuelles
502571820
Taux de rebond
37.10%
Nombre moyen de pages par visite
5.9
Durée moyenne de la visite
00:06:29