InternVL2_5-1B-MPO

Modelo de lenguaje grande multimodal que mejora la comprensión integral de la visión y el lenguaje.

Producto ComúnProductividadMultimodalModelo de lenguaje grande

InternVL2_5-1B-MPO es un modelo de lenguaje grande multimodal (MLLM) construido sobre InternVL2.5 y optimización de preferencias mixtas (MPO), que demuestra un rendimiento general superior. Este modelo integra InternViT con preentrenamiento incremental y varios modelos de lenguaje grandes (LLM) preentrenados, incluyendo InternLM 2.5 y Qwen 2.5, utilizando proyectores MLP con inicialización aleatoria. InternVL2_5-MPO mantiene el paradigma "ViT-MLP-LLM" en su arquitectura, igual que InternVL 2.5 y sus predecesores, e introduce soporte para datos de múltiples imágenes y videos. El modelo destaca en tareas multimodales, pudiendo gestionar diversas tareas de lenguaje visual, incluyendo descripción de imágenes y preguntas y respuestas visuales.

Abrir sitio web

InternVL2_5-1B-MPO Situación del tráfico más reciente

Total de visitas mensuales

27175375

Tasa de rebote

44.30%

Páginas promedio por visita

5.8

Duración promedio de la visita

00:04:57

InternVL2_5-1B-MPO Tendencia de visitas

InternVL2_5-1B-MPO Distribución geográfica de las visitas

InternVL2_5-1B-MPO Fuentes de tráfico

Noticias de IA

IA Diario

Cronología de la IA

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General

InternVL2_5-1B-MPO

InternVL2_5-1B-MPO Situación del tráfico más reciente

InternVL2_5-1B-MPO Tendencia de visitas

InternVL2_5-1B-MPO Distribución geográfica de las visitas

InternVL2_5-1B-MPO Fuentes de tráfico

InternVL2_5-1B-MPO Alternativas

InternVL2_5-26B-MPO — Modelo de lenguaje grande multimodales que mejora la interacción entre la visión y el lenguaje.

InternVL2_5-1B-MPO — Modelo de lenguaje grande multimodal que mejora la comprensión integral de la visión y el lenguaje.

SmolVLM-500M-Instruct — SmolVLM-500M es un modelo multimodal ligero que puede procesar entradas de imagen y texto y generar salidas de texto.

InternVL2_5-78B-MPO — Se trata de una serie de modelos de lenguaje grandes multimodales de vanguardia que demuestra un rendimiento general excepcional.

MinMo — MinMo es un modelo de lenguaje grande multi modal diseñado para una interacción de voz fluida.

InternVL2.5-38B-MPO — Modelo de la serie InternVL2.5-MPO, basado en InternVL2.5 y optimización de preferencias mixtas, que demuestra un rendimiento excepcional.

InternVL2_5-26B-MPO-AWQ — Modelo de lenguaje grande multimodal avanzado con una capacidad de razonamiento multimodal excepcional.

VITA-1.5 — VITA-1.5: Modelo de lenguaje multimodal de gran tamaño de nivel GPT-4o con interacción visual y de voz en tiempo real

InternVL2_5-8B-MPO-AWQ — Modelo de lenguaje grande multimodal que mejora la interacción entre la visión y el lenguaje.

InternVL2_5-4B-MPO-AWQ — Modelo de lenguaje grande multimodal, optimizado para la interacción entre imágenes y texto.

InternVL2.5-4B-MPO — Modelo de lenguaje grande multimodal que muestra un rendimiento general excelente.

Valley 2.0 — Modelo de lenguaje grande multimodal que mejora el procesamiento de datos de texto, imágenes y vídeo.

InternVL2_5-2B-MPO — Modelo de lenguaje grande multimodal avanzado

InternVL2-8B-MPO — Modelo de lenguaje grande multimodal que mejora la capacidad de razonamiento multimodal.

InternVL2_5-4B — Modelo de lenguaje grande multimodal que integra la comprensión visual y lingüística.

InternVL2_5-2B — Modelo de lenguaje grande multimodal que admite una interacción profunda entre imágenes y texto.

InternVL2_5-1B — Modelo de lenguaje grande multimodal, admite la comprensión de imágenes y texto

InternVL2_5-8B — Modelo de lenguaje grande multimodal que admite la comprensión interactiva de imágenes y texto.

InternVL2_5-26B — Modelo de lenguaje grande multimodal que integra la comprensión visual y lingüística.

InternVL2_5-38B — Serie de modelos de lenguaje grandes multimodales de vanguardia

ultravox-v0_4_1-llama-3_1-70b — Modelo de lenguaje grande multimodal de voz

Ferret-UI-Llama8b — Modelo de lenguaje grande multimodales basado en Llama-3-8B, centrado en tareas de interfaz de usuario.

MM1.5 — Optimización y análisis de modelos de lenguaje grandes multimodales

NVLM 1.0 — Modelo de lenguaje grande multimodal de vanguardia

NVLM-D-72B — Modelo de lenguaje grande multimodal de vanguardia

Llama-3.2-11B-Vision — Modelo de lenguaje grande multimodal que admite el procesamiento de imágenes y texto.

Pixtral-12B-2409 — Modelo multimodal de 12B parámetros, que combina un codificador visual para procesar imágenes y texto.

mPLUG-Owl3 — Modelo de lenguaje grande multimodal que comprende secuencias largas de imágenes.

VideoLLaMA2-7B — Modelo de lenguaje grande para video, que ofrece respuestas a preguntas visuales y generación de subtítulos de video.

idefics-80b — Modelo multimodal general que se puede usar para preguntas y respuestas, descripción de imágenes, etc.