Qwen2-VL-72B

最新のビジョン言語モデルで、多言語と多様なモダリティを理解します。

一般製品画像ビジョン理解動画Q\u0026A
Qwen2-VL-72BはQwen-VLモデルの最新版であり、約1年間の革新的な成果を反映しています。MathVista、DocVQA、RealWorldQA、MTVQAなどのビジョン理解ベンチマークテストにおいて最先端の性能を達成しています。20分を超える動画を理解し、スマートフォンやロボットなどのデバイスに統合して、視覚環境とテキスト指示に基づいた自動操作を実行できます。英語と中国語に加え、Qwen2-VL-72Bは、多くのヨーロッパ言語、日本語、韓国語、アラビア語、ベトナム語など、画像内の様々な言語のテキストを理解できます。モデルアーキテクチャの更新には、Naive Dynamic ResolutionとMultimodal Rotary Position Embedding (M-ROPE)が含まれており、多様なモダリティの処理能力が強化されています。
ウェブサイトを開く

Qwen2-VL-72B 最新のトラフィック状況

月間総訪問数

29742941

直帰率

44.20%

平均ページ/訪問

5.9

平均訪問時間

00:04:44

Qwen2-VL-72B 訪問数の傾向

Qwen2-VL-72B 訪問地理的分布

Qwen2-VL-72B トラフィックソース

Qwen2-VL-72B 代替品