InternVL2_5-8Bは、OpenGVLabが開発したマルチモーダル大規模言語モデル(MLLM)です。InternVL 2.0をベースに、トレーニングおよびテスト戦略の顕著な強化とデータ品質の向上を実現しました。本モデルは『ViT-MLP-LLM』アーキテクチャを採用し、新たに増分学習されたInternViTと、InternLM 2.5やQwen 2.5などの複数の事前学習済み言語モデルを統合し、ランダム初期化されたMLPプロジェクターを使用しています。InternVL 2.5シリーズモデルは、画像・動画理解、多言語理解など、マルチモーダルタスクにおいて卓越した性能を発揮します。