2025年3月3日、通義靈碼は最新の推論モデルQwen2.5-Maxを発表し、開発者向けに強力なプログラミングと数学能力のサポートを提供開始しました。Qwen2.5-Maxは20兆個を超えるトークンを用いた事前学習データと、綿密に設計された事後学習方案を組み合わせることで、卓越した性能を発揮します。

複数のベンチマークテストにおいて、Qwen2.5-Maxは優れた結果を示しました。例えば、Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamondなどのテストでは、DeepSeek V3、GPT-4o、Claude-3.5-Sonnetといった業界をリードする他のモデルを上回る成績を収めました。さらに、MMLU-Proなどの評価でも、非常に競争力のある結果を示しています。

微信截图_20250303214041.png

基盤モデルの比較では、Qwen2.5-MaxはDeepSeek V3、Llama-3.1-405B、Qwen2.5-72Bなどのモデルと包括的に比較されました。その結果、通義千問の基盤モデルは多くのベンチマークテストで顕著な優位性を示しました。

注目すべきは、第三者ベンチマークテストプラットフォームChatbot Arenaが発表した最新の巨大言語モデルのブラインドテストランキングで、Qwen2.5-MaxがDeepSeek-V3、Open AI o1-mini、Claude-3.5-Sonnetなどのモデルを上回り、1332点で世界第7位にランクインし、中国の非推論型巨大言語モデルで首位を獲得したことでしょう。数学とプログラミングなどの単一能力ではQwen2.5-Maxが1位、ハードプロンプト(Hard prompts)能力で2位となっています。Chatbot Arenaは、アリババのQwen2.5-Maxは複数の分野で高い性能を示し、特にプログラミング、数学、ハードプロンプトなどの専門技術分野で優れていると評価しています。

現在、Qwen2.5-Maxは通義靈碼に統合されており、ユーザーは通義靈碼プラグインをダウンロードすることで、その強力なプログラミング能力を体験できます。