O Google Vision Transformer é um modelo de reconhecimento de imagem baseado em um codificador Transformer, pré-treinado com um grande conjunto de dados de imagens e que pode ser usado em tarefas como classificação de imagens. O modelo foi pré-treinado no conjunto de dados ImageNet-21k e ajustado finamente no conjunto de dados ImageNet, possuindo excelente capacidade de extração de características de imagens. Ele processa dados de imagem dividindo a imagem em blocos de tamanho fixo e incorporando linearmente esses blocos. Além disso, um código posicional é adicionado à sequência de entrada para permitir o processamento de dados sequenciais no codificador Transformer. Os usuários podem adicionar uma camada linear sobre o codificador pré-treinado para realizar tarefas como classificação de imagens. A principal vantagem do Google Vision Transformer reside em sua poderosa capacidade de aprendizado de características de imagens e sua ampla aplicabilidade. O modelo está disponível gratuitamente.