InternVL2_5-8B-MPO-AWQ
視覚と言語の相互作用能力を向上させた多様なモダリティに対応する大規模言語モデル
一般製品画像多様なモダリティ大規模言語モデル
InternVL2_5-8B-MPO-AWQは、OpenGVLabが開発した多様なモダリティに対応する大規模言語モデルです。InternVL2.5シリーズをベースに、混合選好最適化(Mixed Preference Optimization, MPO)技術を採用しています。このモデルは、視覚と言語の理解と生成において卓越した性能を示し、特に多様なモダリティを扱うタスクで優れた成果を上げています。視覚部分はInternViT、言語部分はInternLMまたはQwenを組み合わせ、ランダムに初期化されたMLPプロジェクターを用いた増分プリトレーニングにより、画像とテキストの深い理解と相互作用を実現しています。本技術の重要性は、単一画像、複数画像、動画データを含む様々なデータタイプを処理できる点にあり、多様なモダリティに対応する人工知能分野に新たなソリューションを提供します。
InternVL2_5-8B-MPO-AWQ 最新のトラフィック状況
月間総訪問数
29742941
直帰率
44.20%
平均ページ/訪問
5.9
平均訪問時間
00:04:44