InternVL2_5-1B-MPO

視覚と言語の包括的な理解能力を向上させる、マルチモーダル大規模言語モデル

一般製品生産性マルチモーダル大規模言語モデル
InternVL2_5-1B-MPOは、InternVL2.5と混合選好最適化(MPO)に基づいて構築されたマルチモーダル大規模言語モデル(MLLM)であり、優れた総合的な性能を示します。このモデルは、増分事前学習済みのInternViTと、InternLM 2.5やQwen 2.5を含む様々な事前学習済み大規模言語モデル(LLM)を、ランダムに初期化されたMLPプロジェクターを使用して統合しています。InternVL2_5-MPOは、InternVL 2.5とその前身と同様の「ViT-MLP-LLM」パラダイムをモデルアーキテクチャに保持しており、複数画像と動画データのサポートを導入しています。このモデルはマルチモーダルタスクにおいて優れた性能を発揮し、画像キャプション生成、Visual Question Answeringなど、様々な視覚言語タスクを処理できます。
ウェブサイトを開く

InternVL2_5-1B-MPO 最新のトラフィック状況

月間総訪問数

29742941

直帰率

44.20%

平均ページ/訪問

5.9

平均訪問時間

00:04:44

InternVL2_5-1B-MPO 訪問数の傾向

InternVL2_5-1B-MPO 訪問地理的分布

InternVL2_5-1B-MPO トラフィックソース

InternVL2_5-1B-MPO 代替品