Google Vision Transformer

Modelo de reconocimiento de imágenes basado en Transformer

Producto ComúnImagenInteligencia ArtificialReconocimiento de Imágenes

Google Vision Transformer es un modelo de reconocimiento de imágenes basado en el codificador Transformer, preentrenado con un conjunto de datos de imágenes a gran escala y aplicable a tareas como la clasificación de imágenes. Este modelo se preentrenó en el conjunto de datos ImageNet-21k y se afinó en ImageNet, demostrando una excelente capacidad para extraer características de imágenes. Procesa los datos de imágenes dividiendo la imagen en bloques de tamaño fijo y realizando una incrustación lineal de estos bloques. Además, se añade una codificación posicional a la secuencia de entrada para permitir el procesamiento de datos secuenciales en el codificador Transformer. Los usuarios pueden añadir una capa lineal sobre el codificador preentrenado para realizar tareas como la clasificación de imágenes. La ventaja de Google Vision Transformer reside en su potente capacidad de aprendizaje de características de imágenes y su amplia aplicabilidad. El uso de este modelo es gratuito.

Best AI Websites & Tools

Google Vision Transformer

Google Vision Transformer Situación del tráfico más reciente

Google Vision Transformer Tendencia de visitas

Google Vision Transformer Distribución geográfica de las visitas

Google Vision Transformer Fuentes de tráfico

Google Vision Transformer Alternativas

Google Vision Transformer — Modelo de reconocimiento de imágenes basado en Transformer

llava-llama-3-8b-v1_1 — Modelo LLaVA optimizado por XTuner, que combina el procesamiento de imágenes y texto.

Anthropic — Forjando el futuro de la inteligencia artificial

Percepción Máquina — Reconocimiento y análisis inteligente de imágenes

HunyuanVideo-I2V — HunyuanVideo-I2V es un framework de generación de imagen a video basado en HunyuanVideo, desarrollado por Tencent.

QwQ-32B — QwQ-32B es un potente modelo de inferencia, diseñado para la resolución de problemas complejos y la generación de texto, con un rendimiento excepcional.

UniTok — UniTok es un tokenizador visual unificado para la generación y comprensión visual.

QwQ-Max-Vista previa — QwQ-Max-Vista previa es el último logro de la serie Qwen, construido sobre Qwen2.5-Max, y cuenta con una potente capacidad de razonamiento y aplicaciones multidominio.

Claude 3.7 Sonnet — Claude 3.7 Sonnet es el último modelo inteligente de Anthropic, que ofrece respuestas rápidas y razonamiento profundo.

Huginn-0125 — Huginn-0125 es un modelo de profundidad recurrente con variables latentes de 3.5 mil millones de parámetros, que destaca en el razonamiento y la generación de código.

Lumina-Video — Lumina-Video es un proyecto inicial para la generación de video que admite la generación de video a partir de texto.

Perro Caliente — Una divertida aplicación de reconocimiento de imágenes que determina si la imagen subida es un perro caliente.

VideoJAM — VideoJAM es un marco para mejorar la coherencia del movimiento en modelos de generación de video.

MatAnyone — MatAnyone es un marco de rotoscopia de vídeo estable con objetivo específico, adecuado para fondos complejos.

Janus-Pro-7B — Janus-Pro-7B es un nuevo marco autorregresivo que unifica la comprensión y la generación multimodales.

Janus-Pro-1B — Janus-Pro-1B es un marco autorregresivo unificado de comprensión y generación multimodal.

Tarsier — Tarsier es un modelo de lenguaje de video a gran escala desarrollado por ByteDance para generar descripciones de video de alta calidad.

leapfusion-hunyuan-image2video — Una novedosa tecnología de muestreo de imagen a vídeo, basada en el modelo Hunyuan para generar vídeos de alta calidad.

OmniThink — OmniThink es un marco que mejora la densidad de conocimiento en la escritura de máquinas mediante la simulación del proceso de pensamiento humano.

Seaweed-APT — Seaweed-APT es un modelo que admite la generación de video en tiempo real, paso a paso, a 1280x720 24 fps.

MangaNinja — MangaNinja es un método de coloreado de bocetos basado en referencias que permite una coincidencia precisa y un control interactivo de grano fino.

MiniMax-01 — Potente modelo de lenguaje con 4560 mil millones de parámetros totales, capaz de procesar contextos de hasta 4 millones de tokens.

rStar-Math — Presenta los resultados de una investigación que muestra la capacidad de los modelos de lenguaje pequeños para dominar el razonamiento matemático a través de la autorreflexión mediante la evolución propia.

ViTPose — Conjunto de modelos ViTPose basados en Transformer

SVFR — SVFR es un marco unificado para la restauración de rostros en video.

Infini-Megrez — Modelo de comprensión multimodal para dispositivos perimetrales; la sinergia de software y hardware da rienda suelta a la inteligencia perimetral sin límites.

CausVid — Generador de vídeo causal rápido, permite la generación de vídeo instantánea.

OpenGVLab InternVL — Un modelo de lenguaje visual de IA que proporciona servicios de análisis y descripción de imágenes.

Florence-VL — Herramienta de mejora de modelos de lenguaje visual, que combina un codificador visual generativo y una técnica de fusión de profundidad y amplitud.

PaliGemma 2 — PaliGemma 2 es un potente modelo de lenguaje visual, fácil de ajustar.