InternVL2.5-MPO é uma série de modelos de linguagem grandes multimodais baseados no InternVL2.5 e na otimização de preferência híbrida (MPO). Ele se destaca em tarefas multimodais, integrando o InternViT recém-treinado incrementalmente com vários modelos de linguagem grandes (LLMs) pré-treinados, como InternLM 2.5 e Qwen 2.5, usando projetores MLP com inicialização aleatória. A série de modelos foi treinada no conjunto de dados de preferência de raciocínio multimodal MMPR, contendo aproximadamente 3 milhões de amostras. Através de um processo de construção de dados eficiente e da técnica de otimização de preferência híbrida, a capacidade de raciocínio e a qualidade das respostas do modelo foram aprimoradas.