Llama-3.2-11B-Vision
Modelo de linguagem grande multimodal, suporta processamento de imagem e texto.
Produto ComumProdutividadeMultimodalProcessamento de imagem
Llama-3.2-11B-Vision é um modelo de linguagem grande multimodal (LLMs) lançado pela Meta, que combina as capacidades de processamento de imagem e texto, com o objetivo de melhorar o desempenho no reconhecimento visual, raciocínio de imagem, descrição de imagem e resposta a perguntas gerais sobre imagens. O modelo superou muitos modelos multimodais de código aberto e fechados em benchmarks comuns do setor.
Llama-3.2-11B-Vision Situação do Tráfego Mais Recente
Total de Visitas Mensais
29742941
Taxa de Rejeição
44.20%
Média de Páginas por Visita
5.9
Duração Média da Visita
00:04:44