SmolVLM-256M-Instruct

SmolVLM-256M é o menor modelo multimodal do mundo, capaz de processar de forma eficiente entradas de imagem e texto e gerar saídas de texto.

Produto ComumImagemMultimodalProcessamento de Imagens
O SmolVLM-256M é um modelo multimodal desenvolvido pela Hugging Face, baseado na arquitetura Idefics3, projetado para processar eficientemente entradas de imagem e texto. Ele consegue responder a perguntas sobre imagens, descrever conteúdo visual ou transcrever texto, precisando de menos de 1 GB de memória GPU para executar a inferência. O modelo apresenta excelente desempenho em tarefas multimodais, mantendo uma arquitetura leve, adequada para aplicações em dispositivos. Seus dados de treinamento vêm dos conjuntos de dados The Cauldron e Docmatix, abrangendo diversos domínios como compreensão de documentos e descrição de imagens, o que lhe confere amplo potencial de aplicação. Atualmente, o modelo está disponível gratuitamente na plataforma Hugging Face, com o objetivo de fornecer aos desenvolvedores e pesquisadores uma poderosa capacidade de processamento multimodal.
Abrir Site

SmolVLM-256M-Instruct Situação do Tráfego Mais Recente

Total de Visitas Mensais

29742941

Taxa de Rejeição

44.20%

Média de Páginas por Visita

5.9

Duração Média da Visita

00:04:44

SmolVLM-256M-Instruct Tendência de Visitas

SmolVLM-256M-Instruct Distribuição Geográfica das Visitas

SmolVLM-256M-Instruct Fontes de Tráfego

SmolVLM-256M-Instruct Alternativas