InternVL 2.5

Série de modelos de linguagem grandes multimodais de código aberto

Produto ComumProdutividadeMultimodalModelo de Linguagem Grande

O InternVL 2.5 é uma série avançada de modelos de linguagem grandes multimodais baseada no InternVL 2.0. Mantendo a arquitetura central do modelo, ele introduz melhorias significativas nas estratégias de treinamento e teste, além da qualidade dos dados. O modelo investiga a fundo a relação entre a expansão do modelo e o desempenho, explorando sistematicamente as tendências de desempenho do codificador visual, modelo de linguagem, tamanho do conjunto de dados e configuração de teste. Por meio de uma avaliação abrangente em benchmarks amplos, incluindo raciocínio multidisciplinar, compreensão de documentos, compreensão de múltiplas imagens/vídeos, compreensão do mundo real, detecção de alucinações multimodais, localização visual, capacidades multilínguas e processamento de linguagem pura, o InternVL 2.5 demonstra competitividade comparável a modelos comerciais líderes como GPT-4o e Claude-3.5-Sonnet. Em particular, este modelo é o primeiro MLLM de código aberto a ultrapassar 70% no benchmark MMMU, alcançando uma melhoria de 3,7 pontos percentuais por meio do raciocínio em cadeia (CoT) e demonstrando um forte potencial de expansão no tempo de teste.

Best AI Websites & Tools

InternVL 2.5

InternVL 2.5 Situação do Tráfego Mais Recente

InternVL 2.5 Tendência de Visitas

InternVL 2.5 Distribuição Geográfica das Visitas

InternVL 2.5 Fontes de Tráfego

InternVL 2.5 Alternativas

Valley 2.0 — Modelo de linguagem grande multi-modal, aprimora a capacidade de processamento de dados de texto, imagem e vídeo.

InternVL 2.5 — Série de modelos de linguagem grandes multimodais de código aberto

InternVL2_5-4B-MPO-AWQ — Modelo de linguagem grande multimodal, otimizado para interação imagem-texto.

RWKV v6 Finch 14B — RWKV v6 Finch 14B, modelo de linguagem grande de código aberto, eficiente no processamento de textos longos.

Migician — Migician é um modelo de linguagem grande multimodal focado na localização de imagens múltiplas, capaz de realizar localização precisa de imagens múltiplas de forma livre.

MinMo — MinMo é um modelo de linguagem grande multimodário para interação de voz perfeita.

Moondream AI — Modelo de linguagem visual de código aberto, executável em diversos dispositivos.

InternVL2_5-8B-MPO — Modelo de linguagem grande multimodais, demonstrando desempenho geral excepcional.

Ruyi-Mini-7B — Modelo de geração de vídeo a partir de imagem de código aberto

InternVL2_5-78B — Série de modelos de linguagem grandes multimodais avançados

Amazon Nova — Amazon Nova é a nova geração de modelos básicos da Amazon, oferecendo inteligência de ponta e um custo-benefício líder do setor.

HunyuanVideo — Framework de treinamento de modelos de geração de vídeo de grande porte de código aberto da Tencent

DataChain — Biblioteca moderna de dataframes Python, projetada para inteligência artificial.

genmoai — Modelo de geração de vídeo de código aberto

UniMuMo — Modelo de geração unificada de texto, música e movimento

Llama-3.2-3B — Modelo de linguagem grande multilíngue

Llama 3.2 — Modelo de IA de código aberto, ajustável, destilável e implantável.

Modelo de IA Xihu — Modelo multimodal com alta inteligência emocional e intelectual

Reflection Llama-3.1 70B — Modelo de linguagem grande de código aberto de ponta mundial

OLMoE-1B-7B — Modelo de linguagem grande (LLM) eficiente e de código aberto

SEED-Story — Modelo de geração de histórias longas multimodais

OpenCompass - Ranking de modelos multimodais — Ranking de desempenho de modelos multimodais atualizado em tempo real

MAP-NEO — Um modelo de linguagem grande completamente de código aberto, oferecendo capacidades avançadas de processamento de linguagem natural.

Perplexica — Um mecanismo de busca de código aberto impulsionado por IA que fornece respostas profundas da web.

Qwen1.5-110B — Primeiro modelo de código aberto com 110 bilhões de parâmetros da série Qwen1.5, com suporte multilíngue e arquitetura de decodificador Transformer eficiente.

DBRX — Um novo padrão de modelo de linguagem grande (LLM) eficiente e de código aberto

Yi-VL-34B — Modelo multimodal de código aberto avançado

NotaGen — NotaGen é um modelo para geração de música simbólica, que adota o paradigma de treinamento de modelos de linguagem grande e se concentra na geração de partituras clássicas de alta qualidade.

Inception Labs — O Inception Labs lança uma nova geração de modelos de linguagem grandes difusivos, oferecendo capacidade de geração de linguagem ultrarrápida, eficiente e de alta qualidade.

Instella — Instella é um modelo de linguagem de código aberto de alto desempenho desenvolvido pela AMD, projetado para acelerar o desenvolvimento de modelos de linguagem de código aberto.