SmolVLM-500M é um modelo multimodal leve desenvolvido pela Hugging Face, pertencente à série SmolVLM. Baseado na arquitetura Idefics3, o modelo foca em tarefas de processamento de imagem e texto de alta eficiência. Ele aceita entradas de imagem e texto em qualquer ordem, gerando saídas de texto. É adequado para tarefas como descrição de imagens e perguntas e respostas visuais. Sua arquitetura leve permite a execução em dispositivos com recursos limitados, mantendo um desempenho robusto em tarefas multimodais. O modelo utiliza a licença Apache 2.0, suportando o open source e cenários de uso flexíveis.