InternVL2_5-1B-MPO
視覚と言語の包括的な理解能力を向上させる、マルチモーダル大規模言語モデル
一般製品生産性マルチモーダル大規模言語モデル
InternVL2_5-1B-MPOは、InternVL2.5と混合選好最適化(MPO)に基づいて構築されたマルチモーダル大規模言語モデル(MLLM)であり、優れた総合的な性能を示します。このモデルは、増分事前学習済みのInternViTと、InternLM 2.5やQwen 2.5を含む様々な事前学習済み大規模言語モデル(LLM)を、ランダムに初期化されたMLPプロジェクターを使用して統合しています。InternVL2_5-MPOは、InternVL 2.5とその前身と同様の「ViT-MLP-LLM」パラダイムをモデルアーキテクチャに保持しており、複数画像と動画データのサポートを導入しています。このモデルはマルチモーダルタスクにおいて優れた性能を発揮し、画像キャプション生成、Visual Question Answeringなど、様々な視覚言語タスクを処理できます。
InternVL2_5-1B-MPO 最新のトラフィック状況
月間総訪問数
29742941
直帰率
44.20%
平均ページ/訪問
5.9
平均訪問時間
00:04:44