本日未明、アリババの通義千問チームはQwen2シリーズのオープンソースモデルを発表しました。このシリーズには、Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B、Qwen2-72Bという5つのサイズの事前学習済みモデルと命令微調整モデルが含まれています。重要な情報として、これらのモデルは、前世代のQwen1.5と比べて、パラメータ数と性能が大幅に向上しています。

Qwen2シリーズでは、多言語能力の向上に多くの労力を注ぎ込み、英語と中国語以外の27言語を網羅するデータセットの量と質を向上させました。比較テストの結果、大規模モデル（70B+パラメータ）は、自然言語理解、コーディング、数学的能力などで優れた性能を示しており、Qwen2-72Bモデルは特に、前世代を性能とパラメータ数の両方で上回っています。

Qwen2モデルは、基本的な言語モデル評価で強力な能力を示しただけでなく、命令微調整モデル評価でも注目すべき成果を上げています。M-MMLUやMGSMなどのベンチマークテストで多言語能力が優れていることが示され、Qwen2命令微調整モデルの大きな可能性を示しています。

今回発表されたQwen2シリーズモデルは、人工知能技術の新たな高みを示すものであり、世界のAIアプリケーションと商業化に更なる可能性をもたらします。将来に向けて、Qwen2はモデル規模とマルチモーダル能力を更に拡大し、オープンソースAI分野の発展を加速させる予定です。

モデル情報

Qwen2シリーズには、Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B、Qwen2-72Bを含む5種類のサイズの基本モデルと命令微調整モデルが含まれています。各モデルの重要な情報を以下の表に示します。

モデル	Qwen2-0.5B	Qwen2-1.5B	Qwen2-7B	Qwen2-57B-A14B	Qwen2-72B
パラメータ数	0.49億	1.54億	7.07B	57.41B	72.71B
非Embパラメータ数	0.35億	1.31B	5.98億	56.32億	70.21B
重み共有	あり	あり	なし	なし	なし
タイイング埋め込み	あり	あり	なし	なし	なし
コンテキスト長	32K	32K	128K	64K	128K

具体的には、以前のQwen1.5では、Qwen1.5-32BとQwen1.5-110BのみにGroup Query Attention（GQA）が適用されていました。今回は、すべてのモデルサイズにGQAを適用することで、モデル推論における高速化とメモリ消費量の削減を実現しました。小規模モデルについては、大規模な疎な埋め込みがモデル全体の大きな部分を占めるため、タイイング埋め込みを適用する方が好ましいです。

コンテキスト長に関しては、すべての基本言語モデルは32Kトークンのコンテキスト長データで事前学習されており、128Kまでの良好な外挿能力をPPL評価で確認しています。しかし、命令微調整モデルについては、PPL評価だけでは不十分です。モデルが長いコンテキストを正しく理解し、タスクを完了できる必要があります。表には、命令微調整モデルのコンテキスト長能力を示しており、これはNeedle in a Haystackタスクの評価によって評価されています。注目すべきは、YARNで強化されたQwen2-7B-InstructとQwen2-72B-Instructモデルは、最大128Kトークンのコンテキスト長を処理できるという優れた能力を示していることです。

多言語能力を強化するために、英語と中国語以外の多くの言語を網羅する事前学習データセットと命令微調整データセットの量と質を向上させるために、多大な努力を払いました。大規模言語モデルには他の言語に一般化できる能力が元々備わっていますが、トレーニングに明確に27の他の言語を含めたことを強調します。

地域	言語
西ヨーロッパ	ドイツ語、フランス語、スペイン語、ポルトガル語、イタリア語、オランダ語
東ヨーロッパと中央ヨーロッパ	ロシア語、チェコ語、ポーランド語
中東	アラビア語、ペルシャ語、ヘブライ語、トルコ語
東アジア	日本語、韓国語
東南アジア	ベトナム語、タイ語、インドネシア語、マレー語、ラオス語、ビルマ語、セブアノ語、クメール語、タガログ語
南アジア	ヒンディー語、ベンガル語、ウルドゥー語

さらに、多言語評価で頻繁に発生するコードスイッチングの問題に対処するために多くの労力を費やしました。そのため、モデルはこの現象を処理する能力が大幅に向上しています。通常、言語間コードスイッチングを引き起こすプロンプトを使用した評価により、関連する問題が大幅に減少していることが確認されています。

性能

比較テストの結果、大規模モデル（70B+パラメータ）の性能はQwen1.5と比べて大幅に向上しています。今回のテストでは、大規模モデルであるQwen2-72Bを中心に実施しました。基本言語モデルに関しては、Qwen2-72Bと現在の最先端のオープンモデルを、自然言語理解、知識獲得、プログラミング能力、数学的能力、多言語能力などの能力について比較しました。厳選されたデータセットと最適化されたトレーニング方法のおかげで、Qwen2-72BはLlama-3-70Bなどの最先端モデルを上回り、パラメータ数が少ないにもかかわらず、前世代のQwen1.5-110Bを上回る性能を示しました。

大規模な事前学習の後、Qwenの知性をさらに向上させ、人間により近づけるために、事後学習を行いました。このプロセスにより、コーディング、数学、推論、命令遵守、多言語理解などの分野におけるモデルの能力がさらに向上しました。さらに、モデルの出力が人間の価値観と一致するようにし、有用で、正直で、無害であることを保証しました。事後学習フェーズは、スケーラブルなトレーニングと最小限の人工注釈という原則に基づいて設計されています。具体的には、数学の棄却サンプリング、コーディングと命令遵守の実行フィードバック、創造的なライティングの逆翻訳、ロールプレイングのスケーラブルな監督など、さまざまな自動アラインメント戦略を通じて、高品質で、信頼性が高く、多様で、創造的なデモデータと嗜好データを取得する方法を研究しました。トレーニングに関しては、教師あり微調整、報酬モデルトレーニング、オンラインDPOトレーニングの組み合わせを採用しました。また、アラインメントコストを最小限に抑えるために、新規のオンライン統合オプティマイザーを採用しました。これらの取り組みによって、モデルの能力と知性が大幅に向上しました（下表を参照）。

Qwen2-72B-Instructについて、さまざまな分野の16個のベンチマークテストを網羅した包括的な評価を行いました。Qwen2-72B-Instructは、より優れた能力を獲得することと、人間の価値観と一致させることの間のバランスを取っています。具体的には、Qwen2-72B-Instructは、すべてのベンチマークテストでQwen1.5-72B-Chatを明らかに上回り、Llama-3-70B-Instructと比較しても競争力のある性能を達成しています。

小規模モデルにおいても、Qwen2モデルは、類似のサイズ、またはそれよりも大きいサイズのSOTAモデルを上回っています。最近発表されたSOTAモデルと比較して、Qwen2-7B-Instructは、さまざまなベンチマークテストで依然として優位性を示しており、特にコーディングと中国語関連の指標で優れた性能を示しています。

強調

コーディングと数学

Qwenの高度な機能、特にコーディングと数学の能力向上に継続的に取り組んできました。コーディングに関しては、CodeQwen1.5のコードトレーニング経験とデータを統合することに成功し、Qwen2-72B-Instructはさまざまなプログラミング言語において大幅な改善を実現しました。数学に関しては、広範で高品質なデータセットを活用することで、Qwen2-72B-Instructは数学の問題解決においてより強力な能力を示しています。

長いコンテキストの理解

Qwen2では、すべての命令微調整モデルは32kの長さのコンテキストでトレーニングされ、YARNやDual Chunk Attentionなどの技術を使用してより長いコンテキスト長に推論されます。

下図は、Needle in a Haystackにおけるテスト結果です。注目すべきは、Qwen2-72B-Instructが128kコンテキスト内の情報抽出タスクを完璧に処理できることであり、その本来の強力な性能と相まって、リソースが十分にある場合、長文処理タスクの第一候補となります。

さらに、このシリーズの他のモデルの印象的な機能にも注目すべきです。Qwen2-7B-Instructは最大128kのコンテキストをほぼ完璧に処理し、Qwen2-57B-A14B-Instructは最大64kのコンテキストを処理し、このシリーズの2つの小規模モデルは32kのコンテキストをサポートしています。

長いコンテキストモデルに加えて、最大100万トークンを含むドキュメントを効率的に処理するためのプロキシソリューションもオープンソース化しました。詳細については、このトピックに関する専用のブログ記事を参照してください。

安全と責任

下表は、大規模モデルが4種類の多言語の安全でないクエリ（違法行為、詐欺、わいせつ、プライバシー侵害）に対して生成した有害な応答の割合を示しています。テストデータはJailbreakから取得し、多言語に翻訳して評価しました。Llama-3は多言語のプロンプトを効果的に処理できないことが判明したため、比較対象から除外しました。有意性検定（P_value）により、Qwen2-72B-Instructモデルは、安全性においてGPT-4と同等であり、Mistral-8x22Bモデルを明らかに上回っていることがわかりました。

言語		違法行為			詐欺			わいせつ			プライバシー侵害
	GPT-4	Mistral-8x22B	Qwen2-72B-Instruct	GPT-4	Mistral-8x22B	Qwen2-72B-Instruct	GPT-4	Mistral-8x22B	Qwen2-72B-Instruct	GPT-4	Mistral-8x22B	Qwen2-72B-Instruct
中国語	0%	13%	0%	0%	17%	0%	43%	47%	53%	0%	10%	0%
英語	0%	7%	0%	0%	23%	0%	37%	67%	63%	0%	27%	3%
アラビア語	0%	13%	0%	0%	7%	0%	15%	26%	15%	3%	13%	0%
スペイン語	0%	7%	0%	3%	0%	0%	48%	64%	50%	3%	7%	3%
フランス語	0%	3%	0%	3%	3%	7%	3%	19%	7%	0%	27%	0%
韓国語	0%	4%	0%	3%	8%	4%	17%	29%	10%	0%	26%	4%
ドイツ語	0%	7%	0%	3%	7%	3%	47%	57%	47%	4%	26%	4%
日本語	0%	10%	0%	7%	23%	3%	13%	17%	10%	13%	7%	7%
ベトナム語	0%	4%	0%	4%	11%	0%	22%	26%	22%	0%	0%	0%
平均	0%	8%	0%	3%	11%	2%	27%	39%	31%	3%	16%	2%

Qwen2を使った開発

現在、すべてのモデルがHugging FaceとModelScopeで公開されています。モデルカードにアクセスして、詳細な使用方法を確認し、各モデルの特徴、性能などの情報を詳しく知ることができます。

長年にわたり、微調整（Axolotl、Llama-Factory、Firefly、Swift、XTuner）、量子化（AutoGPTQ、AutoAWQ、Neural Compressor）、デプロイ（vLLM、SGL、SkyPilot、TensorRT-LLM、OpenVino、TGI）、APIプラットフォーム（Together、Fireworks、OpenRouter）、ローカル実行（MLX、Llama.cpp、Ollama、LM Studio）、エージェントとRAGフレームワーク（LlamaIndex、CrewAI、OpenDevin）、評価（LMSys、OpenCompass、Open LLM Leaderboard）、モデルトレーニング（Dolphin、Openbuddy）など、多くの方々がQwenの発展を支えてきました。Qwen2をサードパーティフレームワークと連携して使用する方法については、それぞれのドキュメントと公式ドキュメントを参照してください。