上海AI研究所は先日、書生・万象InternVL2.5モデルを発表しました。このオープンソースのマルチモーダル大規模言語モデルは、その優れた性能により、マルチモーダル理解ベンチマーク(MMMU)で70%を超える精度を達成した初のオープンソースモデルとなり、GPT-4oやClaude-3.5-Sonnetなどの商用モデルに匹敵する性能を示しています。
InternVL2.5モデルは、連鎖思考(CoT)推論技術により3.7%の性能向上を実現し、強力なテスト時間拡張の可能性を示しました。このモデルはInternVL2.0をベースに、強化されたトレーニングとテスト戦略、データ品質の向上により性能をさらに向上させています。ビジュアルエンコーダー、言語モデル、データセットのサイズ、テスト時間の設定などについて詳細な研究を行い、モデルの規模と性能の関係を探っています。
InternVL2.5は、複数のベンチマークテストで競争力のある性能を示しており、特に多学科推論、文書理解、多画像/ビデオ理解、現実世界の理解、マルチモーダル幻覚検出、ビジュアルグラウンディング、多言語能力、純粋な言語処理などの分野で優れています。この成果は、オープンソースコミュニティにマルチモーダルAIシステムの開発と応用に新たな基準を提供するだけでなく、人工知能分野の研究と応用に新たな可能性を開拓するものです。
InternVL2.5は、前身であるInternVL1.5とInternVL2.0と同じモデルアーキテクチャを保持し、「ViT-MLP-LLM」パラダイムに従っています。また、新たに増分事前学習されたInternViT-6BまたはInternViT-300Mを、様々なサイズとタイプの事前学習済みLLMと統合し、ランダムに初期化された2層のMLPプロジェクターを使用しています。高解像度処理の拡張性を高めるために、研究チームはピクセル順序操作を適用し、ビジュアルトークンの数を元の数の半分に削減しました。
モデルのオープンソースの性質は、研究者や開発者がInternVL2.5に自由にアクセスして使用できることを意味し、マルチモーダルAI技術の発展と革新を大いに促進するでしょう。
モデルリンク:
https://www.modelscope.cn/collections/InternVL-25-fbde6e47302942