Nach DeepSeek R1 hat das Alibaba Cloud Tongyi Qianwen-Team soeben die Veröffentlichung seines neuesten Open-Source-Modells Qwen2.5-1M angekündigt und damit erneut die Aufmerksamkeit der Branche auf sich gezogen.

Die jetzt veröffentlichte Qwen2.5-1M-Serie umfasst zwei Open-Source-Modelle: Qwen2.5-7B-Instruct-1M und Qwen2.5-14B-Instruct-1M. Dies ist das erste Mal, dass Tongyi Qianwen Modelle herausbringt, die nativ eine Millionen Token Kontextlänge unterstützen, und die Inferenzgeschwindigkeit wurde deutlich verbessert.

Alibaba Cloud, Tongyi Qianwen

Das Kernmerkmal von Qwen2.5-1M ist die native Unterstützung der extrem langen Kontextverarbeitung mit einer Million Token. Dadurch kann das Modell problemlos mit sehr langen Dokumenten wie Büchern, ausführlichen Berichten und juristischen Dokumenten umgehen, ohne dass eine mühsame Segmentierung erforderlich ist. Gleichzeitig unterstützt das Modell längere und tiefere Dialoge, kann sich an längere Gesprächsverläufe erinnern und ermöglicht ein kohärenteres und natürlicheres interaktives Erlebnis. Darüber hinaus zeigt Qwen2.5-1M auch bei komplexen Aufgaben wie Codeverständnis, komplexem Schlussfolgern und mehrstufigen Dialogen stärkere Fähigkeiten.

Neben der beeindruckenden Kontextlänge von einer Million Token bietet Qwen2.5-1M einen weiteren bedeutenden Durchbruch: einen blitzschnellen Inferenz-Framework! Das Tongyi Qianwen-Team hat den auf vLLM basierenden Inferenz-Framework vollständig Open Source bereitgestellt und einen Sparse-Attention-Mechanismus integriert. Dieser innovative Framework beschleunigt die Verarbeitung von Eingaben mit einer Million Token um das Dreifache bis Siebenfache! Das bedeutet, dass Benutzer Modelle mit extrem langen Kontexten effizienter nutzen können, was die Effizienz und das Erlebnis in realen Anwendungsszenarien erheblich verbessert.