SmolVLM-256M-Instruct
SmolVLM-256M es el modelo multimodal más pequeño del mundo, capaz de procesar de manera eficiente entradas de imagen y texto y generar salidas de texto.
Producto ComúnImagenMultimodalProcesamiento de imágenes
SmolVLM-256M es un modelo multimodal desarrollado por Hugging Face, basado en la arquitectura Idefics3, diseñado para el procesamiento eficiente de entradas de imagen y texto. Puede responder preguntas sobre imágenes, describir contenido visual o transcribir texto, y solo requiere menos de 1 GB de memoria GPU para la inferencia. El modelo presenta un rendimiento excelente en tareas multimodales, manteniendo una arquitectura ligera, adecuada para aplicaciones en dispositivos. Sus datos de entrenamiento provienen de los conjuntos de datos The Cauldron y Docmatix, que abarcan la comprensión de documentos, la descripción de imágenes y otros contenidos multidisciplinares, lo que le confiere un amplio potencial de aplicación. Actualmente, este modelo se ofrece gratuitamente en la plataforma Hugging Face, con el objetivo de proporcionar a desarrolladores e investigadores una potente capacidad de procesamiento multimodal.
SmolVLM-256M-Instruct Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44