Alibaba Cloud präsentiert das erheblich verbesserte große Sprachmodell Qwen2.5-Turbo mit einer beeindruckenden Kontextlänge von 1 Million Token. Was bedeutet das? Das entspricht etwa 10 Ausgaben von „Die drei Körper“, 150 Stunden Sprachtranskription oder 30.000 Zeilen Code! Das „Lesen von zehn Romanen am Stück“ ist jetzt tatsächlich Realität!

Das Qwen2.5-Turbo-Modell erreicht eine Genauigkeit von 100 % bei der Passkey-Retrieval-Aufgabe und übertrifft vergleichbare Modelle wie GPT-4 im Verständnis langer Texte. Im RULER-Benchmark für lange Texte erzielte es einen hohen Wert von 93,1, während GPT-4 nur 91,6 und GLM4-9B-1M 89,9 Punkte erreichten.

image.png

Neben der Verarbeitung extrem langer Texte bietet Qwen2.5-Turbo auch präzise Ergebnisse bei der Bearbeitung kurzer Texte. In Benchmarks für kurze Texte schneidet es vergleichbar mit GPT-4o-mini und Qwen2.5-14B-Instruct ab.

Durch die Verwendung eines Sparse-Attention-Mechanismus verkürzt Qwen2.5-Turbo die Verarbeitungszeit des ersten Tokens für 1 Million Tokens von 4,9 Minuten auf 68 Sekunden – eine Steigerung der Inferenzgeschwindigkeit um das 4,3-fache.

Die Kosten für die Verarbeitung von 1 Million Tokens betragen nur 0,3 RMB. Im Vergleich zu GPT-4o-mini können mit den gleichen Kosten 3,6-mal mehr Inhalte verarbeitet werden.

image.png

Alibaba Cloud bietet eine Reihe von Demos für Qwen2.5-Turbo, die die Anwendungsmöglichkeiten in Bereichen wie dem tiefen Verständnis langer Romane, der Code-Unterstützung und dem Lesen mehrerer wissenschaftlicher Arbeiten zeigen. Beispielsweise konnte das Modell nach dem Hochladen der 690.000 Token umfassenden chinesischen Ausgabe der „Drei Körper“-Trilogie eine englische Zusammenfassung der Handlung jedes Romans erstellen.

Die leistungsstarken Funktionen von Qwen2.5-Turbo können über den API-Service des Alibaba Cloud Model Studio, die HuggingFace Demo oder die ModelScope Demo getestet werden.

Alibaba Cloud kündigte an, das Modell weiter zu optimieren, die Ausrichtung der menschlichen Präferenzen bei lang sequenziellen Aufgaben zu verbessern, die Inferenzeffizienz zu steigern, die Rechenzeit zu verkürzen und an der Einführung noch größerer und leistungsfähigerer Modelle mit langem Kontext zu arbeiten.

Offizielle Einführung: https://qwenlm.github.io/blog/qwen2.5-turbo/

Online-Demo: https://huggingface.co/spaces/Qwen/Qwen2.5-Turbo-1M-Demo

API-Dokumentation: https://help.aliyun.com/zh/model-studio/getting-started/first-api-call-to-qwen