SmolVLM-256M es un modelo multimodal desarrollado por Hugging Face, basado en la arquitectura Idefics3, diseñado para el procesamiento eficiente de entradas de imagen y texto. Puede responder preguntas sobre imágenes, describir contenido visual o transcribir texto, y solo requiere menos de 1 GB de memoria GPU para la inferencia. El modelo presenta un rendimiento excelente en tareas multimodales, manteniendo una arquitectura ligera, adecuada para aplicaciones en dispositivos. Sus datos de entrenamiento provienen de los conjuntos de datos The Cauldron y Docmatix, que abarcan la comprensión de documentos, la descripción de imágenes y otros contenidos multidisciplinares, lo que le confiere un amplio potencial de aplicación. Actualmente, este modelo se ofrece gratuitamente en la plataforma Hugging Face, con el objetivo de proporcionar a desarrolladores e investigadores una potente capacidad de procesamiento multimodal.