Llama-3.2-11B-Vision

Modelo de linguagem grande multimodal, suporta processamento de imagem e texto.

Produto ComumProdutividadeMultimodalProcessamento de imagem
Llama-3.2-11B-Vision é um modelo de linguagem grande multimodal (LLMs) lançado pela Meta, que combina as capacidades de processamento de imagem e texto, com o objetivo de melhorar o desempenho no reconhecimento visual, raciocínio de imagem, descrição de imagem e resposta a perguntas gerais sobre imagens. O modelo superou muitos modelos multimodais de código aberto e fechados em benchmarks comuns do setor.
Abrir Site

Llama-3.2-11B-Vision Situação do Tráfego Mais Recente

Total de Visitas Mensais

29742941

Taxa de Rejeição

44.20%

Média de Páginas por Visita

5.9

Duração Média da Visita

00:04:44

Llama-3.2-11B-Vision Tendência de Visitas

Llama-3.2-11B-Vision Distribuição Geográfica das Visitas

Llama-3.2-11B-Vision Fontes de Tráfego

Llama-3.2-11B-Vision Alternativas