通義千問チームは先日、最新のQwen2.5-Coder全シリーズのオープンソース化を発表しました。この取り組みは、Open Code LLMsの発展を促進することを目的としています。Qwen2.5-Coderは、その強力さ、多様性、実用性から注目を集めています。

微信截图_20241112083641.png

Qwen2.5-Coder-32B-Instructモデルは、コード能力においてSOTAレベルに達し、GPT-4oに匹敵する性能を示しています。コード生成、コード修正、コード推論など、幅広い能力を備えています。複数のコード生成ベンチマークテストで最高のパフォーマンスを達成し、Aiderベンチマークテストでは73.7点を獲得、GPT-4oと同等の結果となりました。

Qwen2.5-Coderは40種類以上のプログラミング言語をサポートし、McEvalで65.9点を獲得しました。特にHaskellやRacketなどの言語では優れたパフォーマンスを示しています。これは、事前学習段階における独自のデータクレンジングと配分によるものです。さらに、Qwen2.5-Coder-32B-Instructは、複数のプログラミング言語におけるコード修正能力においても優れた性能を発揮し、MdEvalベンチマークテストで75.2点を獲得、1位にランクインしました。

Qwen2.5-Coder-32B-Instructの人間の好みへの整合性を検証するため、内部でアノテーションされたコード選好評価ベンチマークCode Arenaを構築しました。その結果、Qwen2.5-Coder-32B-Instructは選好整合性において優位性を持つことが示されました。

今回のQwen2.5-Coderシリーズのオープンソース化では、0.5B/3B/14B/32Bの4つのサイズのモデルが公開され、主要な6つのモデルサイズを網羅し、様々な開発者のニーズに対応しています。公式にはBaseモデルとInstructモデルの2種類が提供されており、前者は開発者が微調整する際のベースモデルとして、後者は公式に調整されたチャットモデルとして利用できます。モデルサイズと効果には正の相関関係があり、Qwen2.5-CoderはすべてのサイズでSOTAパフォーマンスを達成しています。

Qwen2.5-Coderの0.5B/1.5B/7B/14B/32BモデルはApache2.0ライセンス、3BモデルはResearch Onlyライセンスで提供されます。チームは、様々なサイズのQwen2.5-Coderをすべてのデータセットで評価することで、Code LLMsにおけるスケーリングの有効性を検証しました。

Qwen2.5-Coderのオープンソース化により、開発者にとって強力で多様性があり、実用的なプログラミングモデルの選択肢が増え、プログラミング言語モデルの発展と応用を促進するでしょう。

Qwen2.5-Coderモデルリンク:

https://modelscope.cn/collections/Qwen25-Coder-9d375446e8f5814a