SmolVLM-500M-Instruct

SmolVLM-500M é um modelo multimodal leve que processa entradas de imagem e texto e gera saídas de texto.

Produto ComumImagemMultimodalDescrição de Imagens
SmolVLM-500M é um modelo multimodal leve desenvolvido pela Hugging Face, pertencente à série SmolVLM. Baseado na arquitetura Idefics3, o modelo foca em tarefas de processamento de imagem e texto de alta eficiência. Ele aceita entradas de imagem e texto em qualquer ordem, gerando saídas de texto. É adequado para tarefas como descrição de imagens e perguntas e respostas visuais. Sua arquitetura leve permite a execução em dispositivos com recursos limitados, mantendo um desempenho robusto em tarefas multimodais. O modelo utiliza a licença Apache 2.0, suportando o open source e cenários de uso flexíveis.
Abrir Site

SmolVLM-500M-Instruct Situação do Tráfego Mais Recente

Total de Visitas Mensais

29742941

Taxa de Rejeição

44.20%

Média de Páginas por Visita

5.9

Duração Média da Visita

00:04:44

SmolVLM-500M-Instruct Tendência de Visitas

SmolVLM-500M-Instruct Distribuição Geográfica das Visitas

SmolVLM-500M-Instruct Fontes de Tráfego

SmolVLM-500M-Instruct Alternativas