9月2日、通義千問は第二世代のビジョン言語モデルQwen2-VLのオープンソース化を発表し、アリババクラウド百煉プラットフォーム上で2B、7Bの2つのサイズとその量子化バージョンのモデルAPIを公開し、ユーザーが直接呼び出せるようにしました。
Qwen2-VLモデルは複数の面で性能の大幅な向上を実現しました。異なる解像度と異なるアスペクト比の画像を理解でき、DocVQA、RealWorldQA、MTVQAなどのベンチマークテストで世界トップクラスの性能を達成しました。さらに、20分以上の長尺ビデオも理解でき、ビデオベースのQ&A、対話、コンテンツ作成などのアプリケーションに対応しています。Qwen2-VLは強力なビジュアルインテリジェンスエージェント機能も備えており、スマートフォンやロボットを自律的に操作し、複雑な推論と意思決定を行うことができます。
このモデルは、中国語、英語、多くのヨーロッパ言語、日本語、韓国語、アラビア語、ベトナム語など、画像やビデオ内の多言語テキストを理解できます。通義千問チームは、総合的な大学レベルの問題、数学的能力、ドキュメントや表などの多言語テキストと画像の理解、一般的なシーンでのQ&A、ビデオの理解、エージェント能力など、6つの側面からモデルの能力を評価しました。
Qwen2-VL-72Bはフラッグシップモデルとして、ほとんどの指標で最適な結果を達成しました。Qwen2-VL-7Bは経済的なパラメーター規模で非常に競争力のある性能を実現しており、Qwen2-VL-2Bはモバイル端末での豊富なアプリケーションをサポートし、画像とビデオの多言語理解能力を備えています。
モデルアーキテクチャに関しては、Qwen2-VLはViTとQwen2の直列構造を継承しており、3つのサイズのモデルすべてで6億規模のViTを採用し、画像とビデオの統一入力に対応しています。モデルの視覚情報認識能力とビデオ理解能力を向上させるため、チームはアーキテクチャをアップグレードし、ネイティブな動的解像度への完全なサポートと、多モーダル回転位置埋め込み(M-ROPE)手法の採用を実現しました。
アリババクラウド百煉プラットフォームはQwen2-VL-72BのAPIを提供しており、ユーザーは直接呼び出すことができます。同時に、Qwen2-VL-2BとQwen2-VL-7BのオープンソースコードはHugging Face Transformers、vLLM、その他のサードパーティフレームワークに統合されており、開発者はこれらのプラットフォームからモデルをダウンロードして使用できます。
アリババクラウド百煉プラットフォーム:
https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api
GitHub:
https://github.com/QwenLM/Qwen2-VL
HuggingFace:
https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d
魔搭ModelScope:
https://modelscope.cn/organization/qwen?tab=model
モデル体験:
https://huggingface.co/spaces/Qwen/Qwen2-VL