In den frühen Morgenstunden veröffentlichte das Alibaba Tongyi Qianwen-Team die Open-Source-Modelle der Qwen2-Serie. Diese Serie umfasst fünf verschiedene Größen von vortrainierten und instruierten Feinabstimmungsmodellen: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B und Qwen2-72B. Wichtige Informationen zeigen eine deutliche Verbesserung der Parameteranzahl und Leistung gegenüber der Vorgängergeneration Qwen1.5.

Für die Mehrsprachigkeit der Modelle wurde viel Aufwand in die Erweiterung der Datenmenge und -qualität investiert, wobei 27 weitere Sprachen neben Englisch und Chinesisch abgedeckt werden. Vergleichstests zeigen, dass die großen Modelle (70B+ Parameter) in Bereichen wie natürlichem Sprachverständnis, Codierung und mathematischen Fähigkeiten hervorragende Leistungen erbringen, wobei Qwen2-72B die Vorgängergeneration in Bezug auf Leistung und Parameteranzahl übertrifft.

Die Qwen2-Modelle zeigen nicht nur in der Bewertung von Basis-Sprachmodellen beeindruckende Fähigkeiten, sondern erzielen auch in der Bewertung von instruierten Feinabstimmungsmodellen bemerkenswerte Ergebnisse. Ihre Mehrsprachigkeit zeichnet sich in Benchmarks wie M-MMLU und MGSM aus und unterstreicht das große Potenzial der Qwen2-Instruktion Feinabstimmungsmodelle.

Die Veröffentlichung der Qwen2-Modellreihe markiert einen neuen Höhepunkt in der KI-Technologie und eröffnet weltweit neue Möglichkeiten für KI-Anwendungen und die Kommerzialisierung. Zukünftig wird Qwen2 die Modellgröße und die multimodalen Fähigkeiten weiter ausbauen und die Entwicklung im Bereich Open-Source-KI beschleunigen.

Modellinformationen

Die Qwen2-Serie umfasst fünf Größen von Basis- und instruierten Feinabstimmungsmodellen, darunter Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B und Qwen2-72B. Die wichtigsten Informationen zu den einzelnen Modellen sind in der folgenden Tabelle aufgeführt:

Modell	Qwen2-0.5B	Qwen2-1.5B	Qwen2-7B	Qwen2-57B-A14B	Qwen2-72B
# Parameter	49 Millionen	154 Millionen	7,07 Milliarden	57,41 Milliarden	72,71 Milliarden
# Nicht-Emb-Parameter	35 Millionen	1,31 Milliarden	598 Millionen	56,32 Milliarden	70,21 Milliarden
Gewährleistung der Qualität	Ja	Ja	Ja	Ja	Ja
Tying Embedding	Ja	Ja	Nein	Nein	Nein
Kontextlänge	32.000	32.000	128.000	64.000	128.000

Konkret wurde bei Qwen1.5 nur bei Qwen1.5-32B und Qwen1.5-110B Group Query Attention (GQA) verwendet. Diesmal wurde GQA auf alle Modellgrößen angewendet, um von schnelleren Geschwindigkeiten und geringerem Speicherverbrauch bei der Modellinferenz zu profitieren. Bei kleinen Modellen bevorzugen wir die Anwendung von Tying Embedding, da große, dünn besetzte Embeddings einen großen Teil der Gesamtparameter des Modells ausmachen.

Alle Basis-Sprachmodelle wurden mit einer Kontextlänge von 32.000 Token vortrainiert, und wir haben eine zufriedenstellende Extrapolationsfähigkeit bis zu 128.000 bei der PPL-Bewertung beobachtet. Bei instruierten Feinabstimmungsmodellen begnügen wir uns jedoch nicht mit der alleinigen PPL-Bewertung; wir benötigen Modelle, die lange Kontexte korrekt verstehen und Aufgaben erledigen können. In der Tabelle sind die Kontextlängenfähigkeiten der instruierten Feinabstimmungsmodelle aufgeführt, die durch die Bewertung der Needle-in-a-Haystack-Aufgabe ermittelt wurden. Es ist erwähnenswert, dass die Modelle Qwen2-7B-Instruct und Qwen2-72B-Instruct bei Verwendung von YARN beeindruckende Fähigkeiten bei der Verarbeitung von Kontextlängen bis zu 128.000 Token zeigen.

Wir haben erhebliche Anstrengungen unternommen, um die Menge und Qualität der vortrainierten und instruierten Feinabstimmungsdatensätze zu erhöhen, die neben Englisch und Chinesisch auch mehrere andere Sprachen abdecken, um die Mehrsprachigkeit zu verbessern. Obwohl große Sprachmodelle eine inhärente Fähigkeit zur Generalisierung auf andere Sprachen besitzen, betonen wir ausdrücklich die Aufnahme von 27 weiteren Sprachen in unser Training:

Region	Sprache
Westeuropa	Deutsch, Französisch, Spanisch, Portugiesisch, Italienisch, Niederländisch
Osteuropa und Mitteleuropa	Russisch, Tschechisch, Polnisch
Naher Osten	Arabisch, Persisch, Hebräisch, Türkisch
Ostasien	Japanisch, Koreanisch
Südostasien	Vietnamesisch, Thailändisch, Indonesisch, Malaiisch, Laotisch, Birmanisch, Cebuano, Khmer, Tagalog
Südasien	Hindi, Bengali, Urdu

Darüber hinaus haben wir viel Aufwand betrieben, um das häufig in der mehrsprachigen Bewertung auftretende Problem der Code-Switching zu lösen. Daher ist die Fähigkeit unserer Modelle, mit diesem Phänomen umzugehen, deutlich verbessert. Bewertungen mit Eingabeaufforderungen, die normalerweise zu Code-Switching führen, bestätigen eine deutliche Reduzierung der entsprechenden Probleme.

Leistung

Vergleichstests zeigen eine deutliche Leistungssteigerung der großen Modelle (70B+ Parameter) gegenüber Qwen1.5. Dieser Test konzentriert sich auf das große Modell Qwen2-72B. Im Bereich der Basis-Sprachmodelle haben wir Qwen2-72B mit den aktuell besten Open-Source-Modellen in Bezug auf die Fähigkeiten in natürlichem Sprachverständnis, Wissensabruf, Programmierfähigkeit, mathematischen Fähigkeiten, Mehrsprachigkeit usw. verglichen. Dank sorgfältig ausgewählter Datensätze und optimierter Trainingsmethoden übertrifft Qwen2-72B führende Modelle wie Llama-3-70B und übertrifft sogar die Vorgängergeneration Qwen1.5-110B bei geringerer Parameteranzahl.

Nach dem umfangreichen Vortraining führen wir ein Nachtraining durch, um die Intelligenz von Qwen weiter zu verbessern und sie dem Menschen näher zu bringen. Dieser Prozess verbessert die Fähigkeiten des Modells in Bereichen wie Codierung, Mathematik, Schlussfolgerung, Anweisungsbefolgung und mehrsprachigem Verständnis weiter. Darüber hinaus sorgt er dafür, dass die Ausgabe des Modells mit menschlichen Werten übereinstimmt und nützlich, ehrlich und harmlos ist. Unsere Nachtrainingsphase wurde nach den Prinzipien des skalierbaren Trainings und minimaler manueller Annotation entwickelt. Konkret untersuchen wir, wie man durch verschiedene automatische Ausrichtungsstrategien hochwertige, zuverlässige, vielfältige und kreative Demonstrationsdaten und Präferenzdaten erhält, z. B. Ablehnungs-Sampling für Mathematik, Ausführungsfeedback für Codierung und Anweisungsbefolgung, Rückübersetzung für kreatives Schreiben, skalierbare Aufsicht für Rollenspiele usw. Für das Training verwenden wir eine Kombination aus überwachtem Feintuning, Belohnungsmodelltraining und Online-DPO-Training. Wir verwenden auch einen neuartigen Online-Merge-Optimizer, um die Ausrichtungssteuer zu minimieren. Diese gemeinsamen Bemühungen haben die Fähigkeiten und die Intelligenz unseres Modells deutlich verbessert, wie die folgende Tabelle zeigt.

Wir haben Qwen2-72B-Instruct umfassend bewertet und 16 Benchmarks aus verschiedenen Bereichen abgedeckt. Qwen2-72B-Instruct findet eine Balance zwischen verbesserten Fähigkeiten und der Übereinstimmung mit menschlichen Werten. Konkret übertrifft Qwen2-72B-Instruct Qwen1.5-72B-Chat in allen Benchmarks deutlich und erreicht auch im Vergleich zu Llama-3-70B-Instruct eine wettbewerbsfähige Leistung.

Auch bei kleineren Modellen übertreffen unsere Qwen2-Modelle ähnliche oder sogar größere SOTA-Modelle. Im Vergleich zu kürzlich veröffentlichten SOTA-Modellen zeigt Qwen2-7B-Instruct weiterhin Vorteile in verschiedenen Benchmarks, insbesondere bei Codierungs- und chinesischbezogenen Kennzahlen.

Highlights

Codierung und Mathematik

Wir haben uns stets bemüht, die erweiterten Funktionen von Qwen zu verbessern, insbesondere im Bereich Codierung und Mathematik. Im Bereich Codierung konnten wir die Erfahrungen und Daten des CodeQwen1.5-Codetrainings erfolgreich integrieren, wodurch Qwen2-72B-Instruct in verschiedenen Programmiersprachen deutlich verbessert wurde. Im Bereich Mathematik zeigt Qwen2-72B-Instruct durch die Nutzung umfangreicher und hochwertiger Datensätze eine verbesserte Fähigkeit zur Lösung mathematischer Probleme.

Langes Kontextverständnis

In Qwen2 wurden alle instruierten Feinabstimmungsmodelle in einem Kontext der Länge von 32k trainiert und mit Techniken wie YARN oder Dual Chunk Attention auf längere Kontextlängen extrapoliert.

Die folgende Abbildung zeigt unsere Testergebnisse bei Needle in a Haystack. Es ist bemerkenswert, dass Qwen2-72B-Instruct die Informationsabrufaufgabe in einem Kontext von 128k perfekt bewältigen kann und aufgrund seiner inhärenten hohen Leistung bei ausreichenden Ressourcen die bevorzugte Wahl für die Bearbeitung von Langtext-Aufgaben darstellt.

Darüber hinaus ist die beeindruckende Fähigkeit anderer Modelle der Serie erwähnenswert: Qwen2-7B-Instruct verarbeitet fast perfekt Kontexte bis zu 128k, Qwen2-57B-A14B-Instruct verwaltet Kontexte bis zu 64k, während die beiden kleineren Modelle der Serie Kontexte von 32k unterstützen.

Neben den Langkontextmodellen veröffentlichen wir auch eine Proxy-Lösung zur effizienten Verarbeitung von Dokumenten mit bis zu 1 Million Token. Weitere Informationen finden Sie in unserem speziellen Blogbeitrag zu diesem Thema.

Sicherheit und Verantwortung

Die folgende Tabelle zeigt den Anteil schädlicher Antworten, die von großen Modellen für vier Kategorien mehrsprachiger unsicherer Abfragen (illegale Aktivitäten, Betrug, Pornografie, Datenschutzverletzungen) generiert wurden. Die Testdaten stammen von Jailbreak und wurden zur Bewertung in mehrere Sprachen übersetzt. Wir haben festgestellt, dass Llama-3 mehrsprachige Eingabeaufforderungen nicht effektiv verarbeiten kann, daher wurde es nicht in den Vergleich einbezogen. Durch einen Signifikanztest (P_value) haben wir festgestellt, dass das Modell Qwen2-72B-Instruct in Bezug auf die Sicherheit eine vergleichbare Leistung wie GPT-4 aufweist und Mistral-8x22B deutlich übertrifft.

Sprache		Illegale Aktivitäten			Betrug			Pornografie			Datenschutzverletzungen
	GPT-4	Mistral-8x22B	Qwen2-72B-Instruct	GPT-4	Mistral-8x22B	Qwen2-72B-Instruct	GPT-4	Mistral-8x22B	Qwen2-72B-Instruct	GPT-4	Mistral-8x22B	Qwen2-72B-Instruct
Chinesisch	0%	13%	0%	0%	17%	0%	43%	47%	53%	0%	10%	0%
Englisch	0%	7%	0%	0%	23%	0%	37%	67%	63%	0%	27%	3%
Arabisch	0%	13%	0%	0%	7%	0%	15%	26%	15%	3%	13%	0%
Spanisch	0%	7%	0%	3%	0%	0%	48%	64%	50%	3%	7%	3%
Französisch	0%	3%	0%	3%	3%	7%	3%	19%	7%	0%	27%	0%
Koreanisch	0%	4%	0%	3%	8%	4%	17%	29%	10%	0%	26%	4%
Thailändisch	0%	7%	0%	3%	7%	3%	47%	57%	47%	4%	26%	4%
Japanisch	0%	10%	0%	7%	23%	3%	13%	17%	10%	13%	7%	7%
Vietnamesisch	0%	4%	0%	4%	11%	0%	22%	26%	22%	0%	0%	0%
Durchschnitt	0%	8%	0%	3%	11%	2%	27%	39%	31%	3%	16%	2%

Entwicklung mit Qwen2

Derzeit sind alle Modelle auf Hugging Face und ModelScope verfügbar. Besuchen Sie die Modellkarten, um detaillierte Anweisungen zur Verwendung zu erhalten und mehr über die Funktionen und die Leistung jedes Modells zu erfahren.

Viele Freunde haben die Entwicklung von Qwen seit langem unterstützt, darunter Feinabstimmung (Axolotl, Llama-Factory, Firefly, Swift, XTuner), Quantisierung (AutoGPTQ, AutoAWQ, Neural Compressor), Bereitstellung (vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVino, TGI), API-Plattformen (Together, Fireworks, OpenRouter), lokale Ausführung (MLX, Llama.cpp, Ollama, LM Studio), Agenten und RAG-Frameworks (LlamaIndex, CrewAI, OpenDevin), Bewertung (LMSys, OpenCompass, Open LLM Leaderboard), Modelltraining (Dolphin, Openbuddy) usw. Informationen zur Verwendung von Qwen2 mit Frameworks von Drittanbietern finden Sie in den jeweiligen Dokumentationen sowie in unserer offiziellen Dokumentation.

KI-Nachrichten und -Informationen

Alis leistungsstärkstes Open-Source-Sprachmodell vorgestellt: Tongyi Qianwen veröffentlicht Qwen2