InternVL2.5-MPOは、InternVL2.5と混合選好最適化(MPO)に基づくマルチモーダル大規模言語モデルシリーズです。これは、新しく増分事前学習されたInternViTと、InternLM 2.5やQwen 2.5などの様々な事前学習済み大規模言語モデル(LLM)を、ランダムに初期化されたMLPプロジェクターを使用して統合することで、マルチモーダルタスクにおいて優れた性能を発揮します。このモデルシリーズは約300万サンプルを含むマルチモーダル推論選好データセットMMPRでトレーニングされており、効率的なデータ構築プロセスと混合選好最適化技術により、モデルの推論能力と回答品質が向上しています。