SmolVLM-256M-Instruct

SmolVLM-256M es el modelo multimodal más pequeño del mundo, capaz de procesar de manera eficiente entradas de imagen y texto y generar salidas de texto.

Producto ComúnImagenMultimodalProcesamiento de imágenes
SmolVLM-256M es un modelo multimodal desarrollado por Hugging Face, basado en la arquitectura Idefics3, diseñado para el procesamiento eficiente de entradas de imagen y texto. Puede responder preguntas sobre imágenes, describir contenido visual o transcribir texto, y solo requiere menos de 1 GB de memoria GPU para la inferencia. El modelo presenta un rendimiento excelente en tareas multimodales, manteniendo una arquitectura ligera, adecuada para aplicaciones en dispositivos. Sus datos de entrenamiento provienen de los conjuntos de datos The Cauldron y Docmatix, que abarcan la comprensión de documentos, la descripción de imágenes y otros contenidos multidisciplinares, lo que le confiere un amplio potencial de aplicación. Actualmente, este modelo se ofrece gratuitamente en la plataforma Hugging Face, con el objetivo de proporcionar a desarrolladores e investigadores una potente capacidad de procesamiento multimodal.
Abrir sitio web

SmolVLM-256M-Instruct Situación del tráfico más reciente

Total de visitas mensuales

29742941

Tasa de rebote

44.20%

Páginas promedio por visita

5.9

Duración promedio de la visita

00:04:44

SmolVLM-256M-Instruct Tendencia de visitas

SmolVLM-256M-Instruct Distribución geográfica de las visitas

SmolVLM-256M-Instruct Fuentes de tráfico

SmolVLM-256M-Instruct Alternativas