Qwen2-VL-7B
Qwen2-VL-7B es el último modelo de lenguaje visual, que admite la comprensión multimodal y la generación de texto.
Producto ComúnImagenModelo de lenguaje visualMultimodal
Qwen2-VL-7B es la última iteración del modelo Qwen-VL, que representa los logros innovadores del último año. Este modelo ha alcanzado un rendimiento de vanguardia en las pruebas de referencia de comprensión visual, incluyendo MathVista, DocVQA, RealWorldQA y MTVQA. Es capaz de comprender vídeos de más de 20 minutos de duración, ofreciendo soporte de alta calidad para la respuesta a preguntas basadas en vídeo, el diálogo y la creación de contenido. Además, Qwen2-VL admite múltiples idiomas, incluyendo, además del inglés y el chino, la mayoría de los idiomas europeos, japonés, coreano, árabe y vietnamita. Las actualizaciones de la arquitectura del modelo incluyen Naive Dynamic Resolution y Multimodal Rotary Position Embedding (M-ROPE), que mejoran su capacidad de procesamiento multimodal.
Qwen2-VL-7B Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44