Recentemente, o modelo multimodal de grande linguagem InternLM-XComposer (IXC) foi atualizado para a versão 2.5. Desenvolvido pelo laboratório de inteligência artificial de Xangai, este modelo apresenta capacidades revolucionárias de entrada e saída de contexto longo para compreensão e criação de texto e imagem.

O IXC-2.5 consegue lidar com contextos longos de até 96K tokens, graças aos 24K dados de imagem-texto intercalados usados em seu treinamento. Essa capacidade de contexto longo permite que o IXC-2.5 se destaque em tarefas que exigem amplas entradas e saídas de contexto.

image.png

Em comparação com a versão anterior, o IXC-2.5 apresenta três importantes atualizações na compreensão de linguagem visual:

Compreensão de alta resolução: O IXC-2.5, por meio de seu codificador visual ViT 560×560 interno, suporta imagens de alta resolução com qualquer proporção.

Compreensão de vídeo em detalhes: Trata vídeos como imagens compostas de alta resolução formadas por dezenas ou centenas de quadros, capturando detalhes por meio de amostragem densa e maior resolução.

Diálogos multi-rodada e multi-imagem: Suporta diálogos multi-rodada e multi-imagem de forma livre, interagindo naturalmente com humanos.

image.png

Além das melhorias na capacidade de compreensão, o IXC-2.5 expandiu para duas aplicações notáveis, usando parâmetros LoRA adicionais para criação de texto e imagem:

Criação de páginas web: Com base em instruções de texto e imagem, o IXC-2.5 consegue escrever código-fonte HTML, CSS e JavaScript para criar páginas web.

Redação de artigos de alta qualidade com imagens: Utilizando as tecnologias Chain-of-Thought (CoT) e Direct Preference Optimization (DPO) especialmente projetadas, melhora significativamente a qualidade do conteúdo escrito.

O IXC-2.5 foi avaliado em 28 benchmarks, superando os modelos open-source de última geração em 16 deles. Além disso, seu desempenho foi semelhante ou superior ao do GPT-4V e Gemini Pro em 16 tarefas-chave. Esses resultados demonstram claramente o poderoso desempenho e o amplo potencial de aplicação do IXC-2.5.

Endereço do artigo: https://arxiv.org/pdf/2407.03320

Endereço do projeto: https://github.com/InternLM/InternLM-XComposer