InternVL2.5-MPOは、InternVL2.5と混合選好最適化(MPO)に基づいた、高度なマルチモーダル大規模言語モデルシリーズです。このモデルは、増分事前学習済みのInternViTと、InternLM 2.5やQwen 2.5などの様々な事前学習済みの大規模言語モデルを統合し、ランダム初期化されたMLPプロジェクターを使用しています。InternVL2.5-MPOは、新バージョンにおいてもInternVL 2.5とその前身と同じモデルアーキテクチャを維持し、「ViT-MLP-LLM」パラダイムに従います。このモデルは、マルチ画像とビデオデータに対応し、混合選好最適化(MPO)によってモデル性能がさらに向上しており、マルチモーダルのタスクにおいて優れたパフォーマンスを発揮します。