SmolVLM-256M-Instruct
SmolVLM-256M é o menor modelo multimodal do mundo, capaz de processar de forma eficiente entradas de imagem e texto e gerar saídas de texto.
Produto ComumImagemMultimodalProcessamento de Imagens
O SmolVLM-256M é um modelo multimodal desenvolvido pela Hugging Face, baseado na arquitetura Idefics3, projetado para processar eficientemente entradas de imagem e texto. Ele consegue responder a perguntas sobre imagens, descrever conteúdo visual ou transcrever texto, precisando de menos de 1 GB de memória GPU para executar a inferência. O modelo apresenta excelente desempenho em tarefas multimodais, mantendo uma arquitetura leve, adequada para aplicações em dispositivos. Seus dados de treinamento vêm dos conjuntos de dados The Cauldron e Docmatix, abrangendo diversos domínios como compreensão de documentos e descrição de imagens, o que lhe confere amplo potencial de aplicação. Atualmente, o modelo está disponível gratuitamente na plataforma Hugging Face, com o objetivo de fornecer aos desenvolvedores e pesquisadores uma poderosa capacidade de processamento multimodal.
SmolVLM-256M-Instruct Situação do Tráfego Mais Recente
Total de Visitas Mensais
29742941
Taxa de Rejeição
44.20%
Média de Páginas por Visita
5.9
Duração Média da Visita
00:04:44