SmolVLM-500M-Instruct

SmolVLM-500M es un modelo multimodal ligero que puede procesar entradas de imagen y texto y generar salidas de texto.

Producto ComúnImagenMultimodalDescripción de imágenes

SmolVLM-500M es un modelo multimodal ligero desarrollado por Hugging Face, perteneciente a la familia SmolVLM. Este modelo se basa en la arquitectura Idefics3 y se centra en tareas de procesamiento de imagen y texto de alta eficiencia. Puede aceptar entradas de imagen y texto en cualquier orden, generando salidas de texto. Es adecuado para tareas como descripción de imágenes y preguntas y respuestas visuales. Su arquitectura ligera permite su ejecución en dispositivos con recursos limitados, manteniendo un rendimiento robusto en tareas multimodales. El modelo utiliza la licencia Apache 2.0, lo que permite su uso abierto y flexible.

Best AI Websites & Tools

SmolVLM-500M-Instruct

SmolVLM-500M-Instruct Situación del tráfico más reciente

SmolVLM-500M-Instruct Tendencia de visitas

SmolVLM-500M-Instruct Distribución geográfica de las visitas

SmolVLM-500M-Instruct Fuentes de tráfico

SmolVLM-500M-Instruct Alternativas

SmolVLM-500M-Instruct — SmolVLM-500M es un modelo multimodal ligero que puede procesar entradas de imagen y texto y generar salidas de texto.

SmolVLM-256M-Instruct — SmolVLM-256M es el modelo multimodal más pequeño del mundo, capaz de procesar de manera eficiente entradas de imagen y texto y generar salidas de texto.

InternVL2_5-26B-MPO — Modelo de lenguaje grande multimodales que mejora la interacción entre la visión y el lenguaje.

InternVL2_5-1B-MPO — Modelo de lenguaje grande multimodal que mejora la comprensión integral de la visión y el lenguaje.

idefics-80b — Modelo multimodal general que se puede usar para preguntas y respuestas, descripción de imágenes, etc.

SEED — Otorga a los LLM la capacidad de ver y dibujar.

Aya Vision 32B — Aya Vision 32B es un modelo de lenguaje visual multilingüe, adecuado para OCR, descripción de imágenes, razonamiento visual y otros usos.

Aya Vision 8B — Modelo de lenguaje visual multilingüe de 800 millones de parámetros, compatible con OCR, descripción de imágenes, razonamiento visual, etc.

Migician — Migician es un modelo de lenguaje multimodal de gran tamaño centrado en la localización de múltiples imágenes, capaz de realizar una localización precisa de múltiples imágenes de forma libre.

Wan2.1 — Wan2.1 es un modelo de generación de video a gran escala, avanzado y de código abierto, que admite varias tareas de generación de video.

DeepSeek Japonés — DeepSeek es un modelo de lenguaje IA avanzado, especializado en razonamiento lógico, matemáticas y tareas de programación, disponible de forma gratuita.

OmniParser-v2.0 — OmniParser es una herramienta universal de análisis de pantalla que convierte capturas de pantalla de la interfaz de usuario (UI) en un formato estructurado, mejorando el rendimiento de los agentes de IU basados en LLM.

Magic 1-Para-1 — Magic 1-Para-1 es un modelo de generación de vídeo a partir de imagen altamente eficiente, capaz de generar un vídeo de un minuto en un minuto.

MILS — Los modelos lingüísticos de gran tamaño (LLM) pueden ver y oír sin necesidad de entrenamiento previo.

Janus-Pro-1B — Janus-Pro-1B es un marco autorregresivo unificado de comprensión y generación multimodal.

Kokoro TTS — Un modelo avanzado de texto a voz (TTS) basado en la arquitectura StyleTTS 2, con 82 millones de parámetros, que ofrece una síntesis de voz natural y de alta calidad.

kokoro-onnx — Proyecto de texto a voz (TTS) basado en el motor de ejecución Kokoro y ONNX.

Moondream AI — Modelo de lenguaje visual de código abierto que se ejecuta en varios dispositivos.

PaliGemma2-3b-pt-224 — PaliGemma 2 es un potente modelo de lenguaje visual que admite tareas de procesamiento de imágenes y texto en varios idiomas.

PaliGemma2-3b-pt-448 — PaliGemma 2 es un potente modelo de lenguaje visual que admite diversas tareas de lenguaje visual.

VITA-1.5 — VITA-1.5: Modelo de lenguaje multimodal de gran tamaño de nivel GPT-4o con interacción visual y de voz en tiempo real

Zasper — Un IDE superpotente diseñado para la ciencia de datos, compatible con el procesamiento masivo concurrente.

OpenEMMA — Modelo multimodal de conducción autónoma de extremo a extremo de código abierto

YuLan-Mini — Un modelo de lenguaje ligero y de alta eficiencia con 240 millones de parámetros.

Valley 2.0 — Modelo de lenguaje grande multimodal que mejora el procesamiento de datos de texto, imágenes y vídeo.

Gemini Multimodal Live + WebRTC — Aplicación monofichero que integra la transmisión multi-modal de Gemini y la tecnología WebRTC.

InternVL 2.5 — Serie de modelos lingüísticos grandes multimodales de código abierto

NVLM 1.0 — Modelo de lenguaje grande multimodal de vanguardia

Llama 3.2 — Modelo de IA de código abierto, personalizable, destilable y desplegable.

Pixtral-12B-2409 — Modelo multimodal de 12B parámetros, que combina un codificador visual para procesar imágenes y texto.