Recentemente, o laboratório de IA de Xangai anunciou o lançamento do modelo Sheng·Wanxiang InternVL2.5. Este modelo de linguagem grande multimodal de código aberto, com seu desempenho excepcional, tornou-se o primeiro modelo de código aberto a ultrapassar 70% de precisão no benchmark de compreensão multimodal (MMMU), rivalizando com modelos comerciais como GPT-4o e Claude-3.5-Sonnet.

O modelo InternVL2.5 alcançou uma melhoria de 3,7 pontos percentuais por meio da técnica de raciocínio em cadeia (CoT), demonstrando um forte potencial de escalabilidade no tempo de teste. Este modelo é uma evolução do InternVL2.0, com melhorias de desempenho obtidas por meio do aprimoramento das estratégias de treinamento e teste, além da melhoria da qualidade dos dados. Foram realizados estudos aprofundados sobre o codificador visual, o modelo de linguagem, o tamanho do conjunto de dados e a configuração do tempo de teste para explorar a relação entre a escala do modelo e o desempenho.

微信截图_20241210081428.png

O InternVL2.5 apresentou desempenho competitivo em vários testes de referência, especialmente em raciocínio multidisciplinar, compreensão de documentos, compreensão de múltiplas imagens/vídeos, compreensão do mundo real, detecção de alucinações multimodais, aterramento visual, capacidades multilíngues e processamento de linguagem pura. Este resultado não apenas fornece à comunidade de código aberto um novo padrão para o desenvolvimento e aplicação de sistemas de IA multimodais, mas também abre novas possibilidades para a pesquisa e aplicação na área de inteligência artificial.

O InternVL2.5 mantém a mesma arquitetura de modelo de seus predecessores, InternVL1.5 e InternVL2.0, seguindo o paradigma "ViT-MLP-LLM", e integra o novo pré-treinamento incremental InternViT-6B ou InternViT-300M com vários LLMs pré-treinados de diferentes tamanhos e tipos, usando um projetor MLP de duas camadas com inicialização aleatória. Para melhorar a escalabilidade do processamento de alta resolução, a equipe de pesquisa aplicou uma operação de desordem de pixels, reduzindo o número de tokens visuais à metade do número original.

A natureza de código aberto do modelo significa que pesquisadores e desenvolvedores podem acessar e usar o InternVL2.5 livremente, o que promoverá significativamente o desenvolvimento e a inovação da tecnologia de IA multimodal.

Link do modelo:

https://www.modelscope.cn/collections/InternVL-25-fbde6e47302942