InternVL2_5-1B-MPOは、InternVL2.5と混合選好最適化(MPO)に基づいて構築されたマルチモーダル大規模言語モデル(MLLM)であり、優れた総合的な性能を示します。このモデルは、増分事前学習済みのInternViTと、InternLM 2.5やQwen 2.5を含む様々な事前学習済み大規模言語モデル(LLM)を、ランダムに初期化されたMLPプロジェクターを使用して統合しています。InternVL2_5-MPOは、InternVL 2.5とその前身と同様の「ViT-MLP-LLM」パラダイムをモデルアーキテクチャに保持しており、複数画像と動画データのサポートを導入しています。このモデルはマルチモーダルタスクにおいて優れた性能を発揮し、画像キャプション生成、Visual Question Answeringなど、様々な視覚言語タスクを処理できます。