Llama-3.2-11B-Vision

Modelo de lenguaje grande multimodal que admite el procesamiento de imágenes y texto.

Producto ComúnProductividadMultimodalProcesamiento de imágenes
Llama-3.2-11B-Vision es un modelo de lenguaje grande multimodal (LLM) publicado por Meta que combina la capacidad de procesamiento de imágenes y texto, con el objetivo de mejorar el rendimiento en el reconocimiento visual, el razonamiento de imágenes, la descripción de imágenes y la respuesta a preguntas generales sobre imágenes. El modelo supera a numerosos modelos multimodales de código abierto y cerrados en pruebas comparativas comunes del sector.
Abrir sitio web

Llama-3.2-11B-Vision Situación del tráfico más reciente

Total de visitas mensuales

29742941

Tasa de rebote

44.20%

Páginas promedio por visita

5.9

Duración promedio de la visita

00:04:44

Llama-3.2-11B-Vision Tendencia de visitas

Llama-3.2-11B-Vision Distribución geográfica de las visitas

Llama-3.2-11B-Vision Fuentes de tráfico

Llama-3.2-11B-Vision Alternativas