阿里雲が、大幅にアップグレードされた新しい大規模言語モデルQwen2.5-Turboを発表しました。そのコンテキスト長は驚異的な100万トークンに達します。これはどういうことでしょうか?『三体』10冊分、150時間の音声書き起こし、または3万行のコードに相当します!これで「一気に10冊の小説を読み終える」夢が現実になります!
Qwen2.5-Turboモデルは、Passkey Retrievalタスクで100%の精度を達成し、長文理解能力においてGPT-4などの同等のモデルを凌駕しています。RULER長文ベンチマークテストでは93.1の高得点を獲得しており、GPT-4は91.6、GLM4-9B-1Mは89.9でした。
超長文処理能力に加え、Qwen2.5-Turboは短文処理においても高い精度を誇り、短文ベンチマークテストでは、GPT-4o-miniやQwen2.5-14B-Instructモデルと同等の性能を示しています。
スパースアテンションメカニズムを採用することで、Qwen2.5-Turboモデルは100万トークンの処理における最初のトークン時間を4.9分から68秒に短縮し、推論速度を4.3倍向上させました。
また、100万トークンの処理費用はわずか0.3元で、GPT-4o-miniと比較して、同じコストで3.6倍のコンテンツを処理できます。
阿里雲はQwen2.5-Turboモデルのために、長編小説の深い理解、コードアシスト、複数の論文の読解などにおける応用事例をいくつか用意しています。例えば、69万トークンを含む『三体』三部作の中国語小説をアップロードすると、モデルは各小説のあらすじを英語で要約することに成功しました。
阿里雲モデルスタジオのAPIサービス、HuggingFace Demo、またはModelScope Demoを通じて、Qwen2.5-Turboモデルの強力な機能を体験できます。
阿里雲は、今後、モデルの最適化を継続し、長シーケンスタスクにおける人間の嗜好との整合性を高め、推論効率をさらに向上させ、計算時間を短縮し、さらに大きく強力な長コンテキストモデルの提供を目指します。
公式紹介: https://qwenlm.github.io/blog/qwen2.5-turbo/
オンラインデモ: https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo
APIドキュメント: https://help.aliyun.com/zh/model-studio/getting-started/first-api-call-to-qwen