Qwen2-VL-2B
最先端をいく視覚言語モデルで、マルチモーダル理解とテキスト生成に対応しています。
一般製品画像視覚言語モデルマルチモーダル
Qwen2-VL-2BはQwen-VLモデルの最新版であり、およそ1年間の革新的な成果を反映しています。このモデルは、MathVista、DocVQA、RealWorldQA、MTVQAなど、視覚理解のベンチマークテストにおいて最先端の性能を達成しています。20分を超えるビデオの理解にも対応し、ビデオベースの質問応答、対話、コンテンツ作成などを高品質にサポートします。Qwen2-VLは多言語にも対応しており、英語と中国語に加え、ほとんどのヨーロッパ言語、日本語、韓国語、アラビア語、ベトナム語などを含みます。モデルアーキテクチャの更新には、Naive Dynamic ResolutionとMultimodal Rotary Position Embedding (M-ROPE)が含まれ、マルチモーダル処理能力が強化されています。
Qwen2-VL-2B 最新のトラフィック状況
月間総訪問数
29742941
直帰率
44.20%
平均ページ/訪問
5.9
平均訪問時間
00:04:44