Qwen2-VL-2B

Modelo de lenguaje visual líder en el sector, que admite la comprensión multimodal y la generación de texto.

Producto ComúnImagenModelo de lenguaje visualMultimodal
Qwen2-VL-2B es la última iteración del modelo Qwen-VL, que representa un año de innovaciones. Este modelo ha alcanzado un rendimiento de vanguardia en pruebas de referencia de comprensión visual, incluyendo MathVista, DocVQA, RealWorldQA y MTVQA. Es capaz de comprender vídeos de más de 20 minutos de duración, ofreciendo soporte de alta calidad para la respuesta a preguntas basadas en vídeo, el diálogo y la creación de contenido. Qwen2-VL también admite múltiples idiomas, incluyendo, además del inglés y el chino, la mayoría de los idiomas europeos, japonés, coreano, árabe y vietnamita. Las actualizaciones de la arquitectura del modelo incluyen Naive Dynamic Resolution y Multimodal Rotary Position Embedding (M-ROPE), lo que mejora su capacidad de procesamiento multimodal.
Abrir sitio web

Qwen2-VL-2B Situación del tráfico más reciente

Total de visitas mensuales

29742941

Tasa de rebote

44.20%

Páginas promedio por visita

5.9

Duración promedio de la visita

00:04:44

Qwen2-VL-2B Tendencia de visitas

Qwen2-VL-2B Distribución geográfica de las visitas

Qwen2-VL-2B Fuentes de tráfico

Qwen2-VL-2B Alternativas