O InternLM-XComposer-2.5 é um modelo de linguagem visual grande e multifuncional que suporta entrada e saída de contexto longo. Ele se destaca em diversas aplicações de compreensão e criação de texto e imagem, atingindo um nível comparável ao GPT-4V, mas usando apenas um backend LLM de 7B. O modelo foi treinado com contexto de texto e imagem intercalado de 24K, podendo ser expandido sem problemas para contexto longo de 96K por meio de extrapolação RoPE. Essa capacidade de contexto longo o torna excelente em tarefas que exigem ampla entrada e saída de contexto. Além disso, ele suporta compreensão de alta resolução ultra-alta, compreensão de vídeo de grão fino, diálogo multi-imagem e multi-turnos, criação de páginas web e redação de artigos de alta qualidade com texto e imagens.