SmolVLM-500M-Instruct
SmolVLM-500M é um modelo multimodal leve que processa entradas de imagem e texto e gera saídas de texto.
Produto ComumImagemMultimodalDescrição de Imagens
SmolVLM-500M é um modelo multimodal leve desenvolvido pela Hugging Face, pertencente à série SmolVLM. Baseado na arquitetura Idefics3, o modelo foca em tarefas de processamento de imagem e texto de alta eficiência. Ele aceita entradas de imagem e texto em qualquer ordem, gerando saídas de texto. É adequado para tarefas como descrição de imagens e perguntas e respostas visuais. Sua arquitetura leve permite a execução em dispositivos com recursos limitados, mantendo um desempenho robusto em tarefas multimodais. O modelo utiliza a licença Apache 2.0, suportando o open source e cenários de uso flexíveis.
SmolVLM-500M-Instruct Situação do Tráfego Mais Recente
Total de Visitas Mensais
29742941
Taxa de Rejeição
44.20%
Média de Páginas por Visita
5.9
Duração Média da Visita
00:04:44