Google Vision Transformer
Modelo de reconocimiento de imágenes basado en Transformer
Producto ComúnImagenInteligencia ArtificialReconocimiento de Imágenes
Google Vision Transformer es un modelo de reconocimiento de imágenes basado en el codificador Transformer, preentrenado con un conjunto de datos de imágenes a gran escala y aplicable a tareas como la clasificación de imágenes. Este modelo se preentrenó en el conjunto de datos ImageNet-21k y se afinó en ImageNet, demostrando una excelente capacidad para extraer características de imágenes. Procesa los datos de imágenes dividiendo la imagen en bloques de tamaño fijo y realizando una incrustación lineal de estos bloques. Además, se añade una codificación posicional a la secuencia de entrada para permitir el procesamiento de datos secuenciales en el codificador Transformer. Los usuarios pueden añadir una capa lineal sobre el codificador preentrenado para realizar tareas como la clasificación de imágenes. La ventaja de Google Vision Transformer reside en su potente capacidad de aprendizaje de características de imágenes y su amplia aplicabilidad. El uso de este modelo es gratuito.
Google Vision Transformer Situación del tráfico más reciente
Total de visitas mensuales
502571820
Tasa de rebote
37.10%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:06:29