Google Vision Transformer

Modelo de reconocimiento de imágenes basado en Transformer

Producto ComúnImagenInteligencia ArtificialReconocimiento de Imágenes
Google Vision Transformer es un modelo de reconocimiento de imágenes basado en el codificador Transformer, preentrenado con un conjunto de datos de imágenes a gran escala y aplicable a tareas como la clasificación de imágenes. Este modelo se preentrenó en el conjunto de datos ImageNet-21k y se afinó en ImageNet, demostrando una excelente capacidad para extraer características de imágenes. Procesa los datos de imágenes dividiendo la imagen en bloques de tamaño fijo y realizando una incrustación lineal de estos bloques. Además, se añade una codificación posicional a la secuencia de entrada para permitir el procesamiento de datos secuenciales en el codificador Transformer. Los usuarios pueden añadir una capa lineal sobre el codificador preentrenado para realizar tareas como la clasificación de imágenes. La ventaja de Google Vision Transformer reside en su potente capacidad de aprendizaje de características de imágenes y su amplia aplicabilidad. El uso de este modelo es gratuito.
Abrir sitio web

Google Vision Transformer Situación del tráfico más reciente

Total de visitas mensuales

502571820

Tasa de rebote

37.10%

Páginas promedio por visita

5.9

Duración promedio de la visita

00:06:29

Google Vision Transformer Tendencia de visitas

Google Vision Transformer Distribución geográfica de las visitas

Google Vision Transformer Fuentes de tráfico

Google Vision Transformer Alternativas