SmolVLM-500M-Instruct
SmolVLM-500M es un modelo multimodal ligero que puede procesar entradas de imagen y texto y generar salidas de texto.
Producto ComúnImagenMultimodalDescripción de imágenes
SmolVLM-500M es un modelo multimodal ligero desarrollado por Hugging Face, perteneciente a la familia SmolVLM. Este modelo se basa en la arquitectura Idefics3 y se centra en tareas de procesamiento de imagen y texto de alta eficiencia. Puede aceptar entradas de imagen y texto en cualquier orden, generando salidas de texto. Es adecuado para tareas como descripción de imágenes y preguntas y respuestas visuales. Su arquitectura ligera permite su ejecución en dispositivos con recursos limitados, manteniendo un rendimiento robusto en tareas multimodales. El modelo utiliza la licencia Apache 2.0, lo que permite su uso abierto y flexible.
SmolVLM-500M-Instruct Situación del tráfico más reciente
Total de visitas mensuales
29742941
Tasa de rebote
44.20%
Páginas promedio por visita
5.9
Duración promedio de la visita
00:04:44