InternVL 2.5
オープンソースのマルチモーダル大規模言語モデルシリーズ
一般製品生産性マルチモーダル大規模言語モデル
InternVL 2.5は、InternVL 2.0をベースとした高度なマルチモーダル大規模言語モデルシリーズです。コアとなるモデルアーキテクチャを維持しつつ、トレーニングとテスト戦略、データ品質において大幅な改良が加えられています。本モデルは、モデルの拡張と性能の関係を深く掘り下げ、ビジュアルエンコーダ、言語モデル、データセットのサイズ、テスト時の設定といった要素が性能に及ぼす影響を体系的に探求しています。多学科推論、文書理解、複数画像/動画理解、現実世界理解、マルチモーダル幻覚検知、視覚的配置、多言語対応、純粋な言語処理といった幅広いベンチマークテストにおいて包括的な評価を実施した結果、InternVL 2.5は、GPT-4oやClaude-3.5-Sonnetなどの主要な商用モデルに匹敵する競争力を示しました。特に、本モデルはMMMUベンチマークテストにおいて70%を超えた初のオープンソースMLLMであり、連鎖思考(CoT)推論により3.7%の向上を実現し、テスト時の拡張性の高い可能性を示しています。
InternVL 2.5 最新のトラフィック状況
月間総訪問数
29742941
直帰率
44.20%
平均ページ/訪問
5.9
平均訪問時間
00:04:44