SmolVLM-256M-Instruct

SmolVLM-256M es el modelo multimodal más pequeño del mundo, capaz de procesar de manera eficiente entradas de imagen y texto y generar salidas de texto.

Producto ComúnImagenMultimodalProcesamiento de imágenes

Abrir sitio web

SmolVLM-256M es un modelo multimodal desarrollado por Hugging Face, basado en la arquitectura Idefics3, diseñado para el procesamiento eficiente de entradas de imagen y texto. Puede responder preguntas sobre imágenes, describir contenido visual o transcribir texto, y solo requiere menos de 1 GB de memoria GPU para la inferencia. El modelo presenta un rendimiento excelente en tareas multimodales, manteniendo una arquitectura ligera, adecuada para aplicaciones en dispositivos. Sus datos de entrenamiento provienen de los conjuntos de datos The Cauldron y Docmatix, que abarcan la comprensión de documentos, la descripción de imágenes y otros contenidos multidisciplinares, lo que le confiere un amplio potencial de aplicación. Actualmente, este modelo se ofrece gratuitamente en la plataforma Hugging Face, con el objetivo de proporcionar a desarrolladores e investigadores una potente capacidad de procesamiento multimodal.

Abrir sitio web

SmolVLM-256M-Instruct Situación del tráfico más reciente

Total de visitas mensuales

27175375

Tasa de rebote

44.30%

Páginas promedio por visita

5.8

Duración promedio de la visita

00:04:57

SmolVLM-256M-Instruct Tendencia de visitas

SmolVLM-256M-Instruct Distribución geográfica de las visitas

Noticias de IA

IA Diario

Cronología de la IA

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General

SmolVLM-256M-Instruct

SmolVLM-256M-Instruct Situación del tráfico más reciente

SmolVLM-256M-Instruct Tendencia de visitas

SmolVLM-256M-Instruct Distribución geográfica de las visitas

SmolVLM-256M-Instruct Fuentes de tráfico

SmolVLM-256M-Instruct Alternativas

SmolVLM-256M-Instruct — SmolVLM-256M es el modelo multimodal más pequeño del mundo, capaz de procesar de manera eficiente entradas de imagen y texto y generar salidas de texto.

InternVL2.5-38B-MPO — Modelo de la serie InternVL2.5-MPO, basado en InternVL2.5 y optimización de preferencias mixtas, que demuestra un rendimiento excepcional.

Pixtral-12B-2409 — Modelo multimodal de 12B parámetros, que combina un codificador visual para procesar imágenes y texto.

SmolVLM2 — SmolVLM2 es un modelo de lenguaje ligero que se centra en el análisis y la generación de contenido de video.

UniTok — UniTok es un tokenizador visual unificado para la generación y comprensión visual.

Magma-8B — Magma-8B es un modelo de IA multimodal desarrollado por Microsoft que puede procesar entradas de imagen y texto y generar salidas de texto.

InternVL2_5-26B-MPO-AWQ — Modelo de lenguaje grande multimodal avanzado con una capacidad de razonamiento multimodal excepcional.

InternVL2.5-8B-MPO — Modelo lingüístico grande multimodales que muestra un rendimiento general excelente.

InternVL2.5-4B-MPO — Modelo de lenguaje grande multimodal que muestra un rendimiento general excelente.

Valley — Modelo multimodal de gran escala que procesa datos de texto, imagen y vídeo.

InternVL2_5-2B-MPO — Modelo de lenguaje grande multimodal avanzado

Qwen2-VL-7B — Qwen2-VL-7B es el último modelo de lenguaje visual, que admite la comprensión multimodal y la generación de texto.

Qwen2-VL-2B — Modelo de lenguaje visual líder en el sector, que admite la comprensión multimodal y la generación de texto.

ultravox-v0_4_1-llama-3_1-70b — Modelo de lenguaje grande multimodal de voz

Aquila-VL-2B-llava-qwen — Modelo de lenguaje visual que combina información de imágenes y texto para un procesamiento inteligente.

Ferret-UI-Llama8b — Modelo de lenguaje grande multimodales basado en Llama-3-8B, centrado en tareas de interfaz de usuario.

Llama-3.2-11B-Vision — Modelo de lenguaje grande multimodal que admite el procesamiento de imágenes y texto.

Pixtral 12B — Primer modelo multimodales de Mistral, compatible con el procesamiento de tareas mixtas de imagen y texto.

pixtral-12b-240910 — Modelo de lenguaje grande multimodal que admite la comprensión de imágenes y texto.

Show-o — Transformador único para la comprensión y generación multimodales unificada

Phi-3.5-vision — Modelo multimodal avanzado que admite la comprensión de imágenes y texto.

LLaVA-OneVision — Modelo de conversión eficiente para tareas de visión multimodal

Modelo X — Domina los modelos de IA más populares e intégralos en tu producto.

Florence-2-base — Modelo base visual avanzado que admite diversas tareas de visión y visión-lenguaje.

Falcon 2 — Falcon 2 es un modelo multimodal y multilingüe de código abierto con capacidad de conversión de imagen a texto.

idefics-80b — Modelo multimodal general que se puede usar para preguntas y respuestas, descripción de imágenes, etc.

Mini-Gemini — Modelo de IA multimodal con capacidad para comprender y generar imágenes.

MouSi — Modelo de lenguaje visual multimodal

TinyGPT-V — Modelo de lenguaje grande multimodal y eficiente

OneLLM — Un marco que unifica todos los modelos de lenguaje