InternVL 2.5
Série de modelos de linguagem grandes multimodais de código aberto
Produto ComumProdutividadeMultimodalModelo de Linguagem Grande
O InternVL 2.5 é uma série avançada de modelos de linguagem grandes multimodais baseada no InternVL 2.0. Mantendo a arquitetura central do modelo, ele introduz melhorias significativas nas estratégias de treinamento e teste, além da qualidade dos dados. O modelo investiga a fundo a relação entre a expansão do modelo e o desempenho, explorando sistematicamente as tendências de desempenho do codificador visual, modelo de linguagem, tamanho do conjunto de dados e configuração de teste. Por meio de uma avaliação abrangente em benchmarks amplos, incluindo raciocínio multidisciplinar, compreensão de documentos, compreensão de múltiplas imagens/vídeos, compreensão do mundo real, detecção de alucinações multimodais, localização visual, capacidades multilínguas e processamento de linguagem pura, o InternVL 2.5 demonstra competitividade comparável a modelos comerciais líderes como GPT-4o e Claude-3.5-Sonnet. Em particular, este modelo é o primeiro MLLM de código aberto a ultrapassar 70% no benchmark MMMU, alcançando uma melhoria de 3,7 pontos percentuais por meio do raciocínio em cadeia (CoT) e demonstrando um forte potencial de expansão no tempo de teste.
InternVL 2.5 Situação do Tráfego Mais Recente
Total de Visitas Mensais
29742941
Taxa de Rejeição
44.20%
Média de Páginas por Visita
5.9
Duração Média da Visita
00:04:44