SmolVLM-500M-Instruct

SmolVLM-500M es un modelo multimodal ligero que puede procesar entradas de imagen y texto y generar salidas de texto.

Producto ComúnImagenMultimodalDescripción de imágenes
SmolVLM-500M es un modelo multimodal ligero desarrollado por Hugging Face, perteneciente a la familia SmolVLM. Este modelo se basa en la arquitectura Idefics3 y se centra en tareas de procesamiento de imagen y texto de alta eficiencia. Puede aceptar entradas de imagen y texto en cualquier orden, generando salidas de texto. Es adecuado para tareas como descripción de imágenes y preguntas y respuestas visuales. Su arquitectura ligera permite su ejecución en dispositivos con recursos limitados, manteniendo un rendimiento robusto en tareas multimodales. El modelo utiliza la licencia Apache 2.0, lo que permite su uso abierto y flexible.
Abrir sitio web

SmolVLM-500M-Instruct Situación del tráfico más reciente

Total de visitas mensuales

29742941

Tasa de rebote

44.20%

Páginas promedio por visita

5.9

Duración promedio de la visita

00:04:44

SmolVLM-500M-Instruct Tendencia de visitas

SmolVLM-500M-Instruct Distribución geográfica de las visitas

SmolVLM-500M-Instruct Fuentes de tráfico

SmolVLM-500M-Instruct Alternativas