Recentemente, o modelo multimodal de grande linguagem InternLM-XComposer (IXC) foi atualizado para a versão 2.5. Desenvolvido pelo laboratório de inteligência artificial de Xangai, este modelo apresenta capacidades revolucionárias de entrada e saída de contexto longo para compreensão e criação de texto e imagem.
O IXC-2.5 consegue lidar com contextos longos de até 96K tokens, graças aos 24K dados de imagem-texto intercalados usados em seu treinamento. Essa capacidade de contexto longo permite que o IXC-2.5 se destaque em tarefas que exigem amplas entradas e saídas de contexto.
Em comparação com a versão anterior, o IXC-2.5 apresenta três importantes atualizações na compreensão de linguagem visual:
Compreensão de alta resolução: O IXC-2.5, por meio de seu codificador visual ViT 560×560 interno, suporta imagens de alta resolução com qualquer proporção.
Compreensão de vídeo em detalhes: Trata vídeos como imagens compostas de alta resolução formadas por dezenas ou centenas de quadros, capturando detalhes por meio de amostragem densa e maior resolução.
Diálogos multi-rodada e multi-imagem: Suporta diálogos multi-rodada e multi-imagem de forma livre, interagindo naturalmente com humanos.
Além das melhorias na capacidade de compreensão, o IXC-2.5 expandiu para duas aplicações notáveis, usando parâmetros LoRA adicionais para criação de texto e imagem:
Criação de páginas web: Com base em instruções de texto e imagem, o IXC-2.5 consegue escrever código-fonte HTML, CSS e JavaScript para criar páginas web.
Redação de artigos de alta qualidade com imagens: Utilizando as tecnologias Chain-of-Thought (CoT) e Direct Preference Optimization (DPO) especialmente projetadas, melhora significativamente a qualidade do conteúdo escrito.
O IXC-2.5 foi avaliado em 28 benchmarks, superando os modelos open-source de última geração em 16 deles. Além disso, seu desempenho foi semelhante ou superior ao do GPT-4V e Gemini Pro em 16 tarefas-chave. Esses resultados demonstram claramente o poderoso desempenho e o amplo potencial de aplicação do IXC-2.5.
Endereço do artigo: https://arxiv.org/pdf/2407.03320
Endereço do projeto: https://github.com/InternLM/InternLM-XComposer