阿里云重磅推出全新升级的Qwen2.5-Turbo大语言模型,其上下文长度突破至惊人的100万Token。这相当于什么概念?相当于10部《三体》,150小时的语音转录或3万行代码的容量!这回可真是“一口气读完十本小说”不是梦了!
Qwen2.5-Turbo模型在Passkey Retrieval任务中实现了100%的准确率,并且在长文本理解能力方面超越了GPT-4等同类模型。该模型在RULER长文本基准测试中取得了93.1的高分,而GPT-4的得分仅为91.6,GLM4-9B-1M的得分则为89.9。
除了超长文本处理能力,Qwen2.5-Turbo还兼具短文本处理的精准性,在短文本基准测试中,其性能表现与GPT-4o-mini和Qwen2.5-14B-Instruct模型相当。
通过采用稀疏注意力机制,Qwen2.5-Turbo模型将处理100万Token的首次token时间从4.9分钟缩短至68秒,实现了4.3倍的推理速度提升。
同时,处理100万Token的费用仅为0.3元人民币,与GPT-4o-mini相比,在相同成本下可以处理3.6倍的内容。
阿里云为Qwen2.5-Turbo模型准备了一系列演示,展示了其在深度理解长篇小说、代码辅助和多篇论文阅读等方面的应用。例如,用户上传了包含69万Token的《三体》三部曲中文小说后,模型成功地用英文概括了每部小说的情节。
用户可以通过阿里云模型工作室的API服务、HuggingFace Demo或ModelScope Demo体验Qwen2.5-Turbo模型的强大功能。
阿里云表示,未来将继续优化模型,提升其在长序列任务中的人类偏好对齐,并进一步优化推理效率,降低计算时间,并尝试推出更大更强的长上下文模型。
官方介绍:https://qwenlm.github.io/blog/qwen2.5-turbo/
在线演示:https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo
API文档:https://help.aliyun.com/zh/model-studio/getting-started/first-api-call-to-qwen