InternVL 2.5

Serie de modelos lingüísticos grandes multimodales de código abierto

Producto ComúnProductividadMultimodalModelo lingüístico grande

InternVL 2.5 es una serie avanzada de modelos lingüísticos grandes multimodales basada en InternVL 2.0. Mantiene la arquitectura del modelo central, pero incorpora mejoras significativas en las estrategias de entrenamiento y prueba, así como en la calidad de los datos. El modelo explora en profundidad la relación entre la ampliación del modelo y el rendimiento, investigando sistemáticamente las tendencias de rendimiento del codificador visual, el modelo lingüístico, el tamaño del conjunto de datos y la configuración en tiempo de prueba. A través de una amplia evaluación en una variedad de benchmarks, incluyendo razonamiento multidisciplinar, comprensión de documentos, comprensión de múltiples imágenes/vídeos, comprensión del mundo real, detección de alucinaciones multimodales, localización visual, capacidades multilingües y procesamiento de lenguaje puro, InternVL 2.5 demuestra una competitividad comparable a modelos comerciales líderes como GPT-4o y Claude-3.5-Sonnet. En particular, es el primer MLLM de código abierto que supera el 70% en el benchmark MMMU, logrando una mejora del 3,7% mediante razonamiento en cadena (CoT) y mostrando un potente potencial de escalabilidad en tiempo de prueba.

Noticias de IA

IA Diario

Cronología de la IA

Últimos Casos

Colección de Imágenes

Colección de Videos

Colección de Audio

Colección de Contenido

Últimos Tutoriales

Ranking de Productos de IA

Ranking de Crecimiento de Tráfico de IA

Ranking de Descenso de Tráfico de IA

Ranking Semanal de IA

Estados Unidos

China

India

Brasil

Generación de Imágenes

Asistente Personal

Generación de Personajes

Generación de Videos

Ranking de Proyectos de IA

Ranking de Crecimiento de Proyectos de IA

Ranking de Desarrolladores de IA

Ranking de Organizaciones de IA

Deepseek

TTS

LLM

ChatGPT

Visión General

InternVL 2.5

InternVL 2.5 Situación del tráfico más reciente

InternVL 2.5 Tendencia de visitas

InternVL 2.5 Distribución geográfica de las visitas

InternVL 2.5 Fuentes de tráfico

InternVL 2.5 Alternativas

InternVL 2.5 — Serie de modelos lingüísticos grandes multimodales de código abierto

Mistral Small 3.1 — Modelo de código abierto que mejora la capacidad de procesamiento de tareas de texto y visión.

Migician — Migician es un modelo de lenguaje multimodal de gran tamaño centrado en la localización de múltiples imágenes, capaz de realizar una localización precisa de múltiples imágenes de forma libre.

DeepSeek Japonés — DeepSeek es un modelo de lenguaje IA avanzado, especializado en razonamiento lógico, matemáticas y tareas de programación, disponible de forma gratuita.

Mistral-Small-24B-Instruct-2501 — Mistral Small 24B es un modelo lingüístico grande (LLM) multi-idioma, de alto rendimiento y ajustado con instrucciones, adecuado para diversas aplicaciones.

Janus-Pro-1B — Janus-Pro-1B es un marco autorregresivo unificado de comprensión y generación multimodal.

SmolVLM-500M-Instruct — SmolVLM-500M es un modelo multimodal ligero que puede procesar entradas de imagen y texto y generar salidas de texto.

Doubao-1.5-pro — Doubao-1.5-pro es un modelo lingüístico grande (LLM) MoE (Mixture of Experts) disperso de alto rendimiento, que se centra en el equilibrio óptimo entre el rendimiento de inferencia y la capacidad del modelo.

Moondream AI — Modelo de lenguaje visual de código abierto que se ejecuta en varios dispositivos.

VITA-1.5 — VITA-1.5: Modelo de lenguaje multimodal de gran tamaño de nivel GPT-4o con interacción visual y de voz en tiempo real

InternVL2.5-8B-MPO — Modelo lingüístico grande multimodales que muestra un rendimiento general excelente.

OpenEMMA — Modelo multimodal de conducción autónoma de extremo a extremo de código abierto

Valley 2.0 — Modelo de lenguaje grande multimodal que mejora el procesamiento de datos de texto, imágenes y vídeo.

Gemini Multimodal Live + WebRTC — Aplicación monofichero que integra la transmisión multi-modal de Gemini y la tecnología WebRTC.

InternVL2_5-78B — Serie de modelos lingüísticos grandes multimodales avanzados

Pixtral-Large-Instruct-2411 — Modelo lingüístico multimodal grande de 124B parámetros

NVLM 1.0 — Modelo de lenguaje grande multimodal de vanguardia

Llama 3.2 — Modelo de IA de código abierto, personalizable, destilable y desplegable.

Mini-Omni — Modelo de lenguaje grande multi-modal de código abierto, compatible con entrada de voz en tiempo real y salida de audio en streaming.

nanoPerplexityAI — Implementación de código abierto más sencilla

Llama 3.1 — Modelo de IA de código abierto de vanguardia, compatible con múltiples idiomas y funciones avanzadas.

OmAgent — Marco de agente inteligente multimodal que resuelve tareas complejas

Falcon 2 — Falcon 2 es un modelo multimodal y multilingüe de código abierto con capacidad de conversión de imagen a texto.

Meta Llama 3 — Modelo de lenguaje grande de código abierto de última generación de Meta, con un rendimiento excepcional.

Mini-Gemini — Modelo de IA multimodal con capacidad para comprender y generar imágenes.

Grok-1 — Modelo Grok-1 de publicación abierta, con 314 mil millones de parámetros.

Llama 3 — Modelo de lenguaje grande de código abierto de nueva generación, con un rendimiento excepcional.

Yi-VL-34B — Modelo multimodal de código abierto avanzado

DocLLM — Modelo de comprensión de documentos multimodal

Dream 7B — Dream 7B es uno de los modelos lingüísticos grandes de difusión abierta más potentes.