Qwen2-VL-2B
Modelo de lenguaje visual líder en el sector, que admite la comprensión multimodal y la generación de texto.
Producto ComúnImagenModelo de lenguaje visualMultimodal
Qwen2-VL-2B es la última iteración del modelo Qwen-VL, que representa un año de innovaciones. Este modelo ha alcanzado un rendimiento de vanguardia en pruebas de referencia de comprensión visual, incluyendo MathVista, DocVQA, RealWorldQA y MTVQA. Es capaz de comprender vídeos de más de 20 minutos de duración, ofreciendo soporte de alta calidad para la respuesta a preguntas basadas en vídeo, el diálogo y la creación de contenido. Qwen2-VL también admite múltiples idiomas, incluyendo, además del inglés y el chino, la mayoría de los idiomas europeos, japonés, coreano, árabe y vietnamita. Las actualizaciones de la arquitectura del modelo incluyen Naive Dynamic Resolution y Multimodal Rotary Position Embedding (M-ROPE), lo que mejora su capacidad de procesamiento multimodal.
Qwen2-VL-2B Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44