Alibaba Cloud lance le nouveau modèle linguistique de grande envergure Qwen2.5-Turbo, une version améliorée dont la longueur de contexte atteint l'incroyable seuil de 1 million de jetons. Pour vous donner une idée, cela équivaut à 10 livres de la série « Le Problème à Trois Corps », 150 heures de transcription audio ou 30 000 lignes de code ! Lire dix romans d'une traite n'est plus un rêve !
Le modèle Qwen2.5-Turbo affiche une précision de 100 % dans la tâche de récupération de clé de passage et surpasse des modèles similaires comme GPT-4 en matière de compréhension de longs textes. Il a obtenu un score élevé de 93,1 au test de référence RULER pour les longs textes, contre 91,6 pour GPT-4 et 89,9 pour GLM4-9B-1M.
Outre sa capacité à traiter des textes extrêmement longs, Qwen2.5-Turbo offre également une grande précision pour les textes courts, avec des performances comparables à celles de GPT-4o-mini et Qwen2.5-14B-Instruct lors des tests de référence sur les textes courts.
Grâce à un mécanisme d'attention clairsemée, le modèle Qwen2.5-Turbo réduit le temps de traitement du premier jeton pour 1 million de jetons de 4,9 minutes à 68 secondes, soit une amélioration de la vitesse d'inférence de 4,3 fois.
De plus, le traitement de 1 million de jetons ne coûte que 0,3 yuan chinois. Comparé à GPT-4o-mini, il permet de traiter 3,6 fois plus de contenu pour le même coût.
Alibaba Cloud propose une série de démonstrations pour Qwen2.5-Turbo, illustrant ses applications dans la compréhension approfondie de romans longs, l'assistance au codage et la lecture de plusieurs articles. Par exemple, après avoir téléchargé la trilogie chinoise « Le Problème à Trois Corps » (690 000 jetons), le modèle a réussi à résumer l'intrigue de chaque roman en anglais.
Vous pouvez découvrir la puissance du modèle Qwen2.5-Turbo via les services API d'Alibaba Cloud Model Studio, la démo HuggingFace ou la démo ModelScope.
Alibaba Cloud indique qu'il continuera à optimiser le modèle, à améliorer l'alignement des préférences humaines pour les tâches à longues séquences, à optimiser encore l'efficacité de l'inférence, à réduire le temps de calcul et à tenter de lancer des modèles à contexte long plus grands et plus puissants.
Présentation officielle : https://qwenlm.github.io/blog/qwen2.5-turbo/
Démonstration en ligne : https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo
Documentation API : https://help.aliyun.com/zh/model-studio/getting-started/first-api-call-to-qwen