通義千問チームは、Qwen2の発表から3ヶ月後、Qwenファミリーの最新メンバーであるQwen2.5シリーズ言語モデルを正式にオープンソースとして公開したことを発表しました。これは、汎用言語モデルQwen2.5、プログラミングと数学に特化したQwen2.5-Coder、Qwen2.5-Mathモデルを含む、おそらく歴史上最大規模のオープンソースリリースと言えるでしょう。

Qwen2.5シリーズモデルは、最大18Tトークンを含む最新の巨大データセットで事前学習されています。Qwen2と比較して、知識獲得、プログラミング能力、数学能力が大幅に向上しています。長文処理に対応し、最大8Kトークンのコンテンツを生成でき、29以上の言語をサポートしています。

微信截图_20240919080229.png

微信截图_20240919080238.png

Qwen2.5シリーズモデルのオープンソース化は、Apache2.0ライセンスを採用しているだけでなく、様々な規模のバリエーションを提供することで、様々なアプリケーションニーズに対応しています。さらに、通義千問チームは、GPT-4に匹敵する性能を持つQwen2-VL-72Bモデルもオープンソース化しました。

新しいモデルは、指示実行、長文生成、構造化データの理解、構造化出力の生成において顕著な改善が見られます。特にプログラミングと数学の分野では、Qwen2.5-CoderとQwen2.5-Mathモデルは専門データセットでトレーニングされており、より高い専門性を示しています。

Qwen2.5シリーズモデル体験:

  • Qwen2.5合集:https://modelscope.cn/studios/qwen/Qwen2.5