Llama-3.2-11B-Vision
Modelo de lenguaje grande multimodal que admite el procesamiento de imágenes y texto.
Producto ComúnProductividadMultimodalProcesamiento de imágenes
Llama-3.2-11B-Vision es un modelo de lenguaje grande multimodal (LLM) publicado por Meta que combina la capacidad de procesamiento de imágenes y texto, con el objetivo de mejorar el rendimiento en el reconocimiento visual, el razonamiento de imágenes, la descripción de imágenes y la respuesta a preguntas generales sobre imágenes. El modelo supera a numerosos modelos multimodales de código abierto y cerrados en pruebas comparativas comunes del sector.
Llama-3.2-11B-Vision Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44