20. Januar 2025, DeepSeek gab die Einführung seines ersten Inferenzmodells DeepSeek-R1 bekannt, das durch verstärkendes Lernen (RL) trainiert wurde und in mehreren Inferenz-Benchmark-Tests eine mit OpenAI-o1-1217 vergleichbare Leistung erzielte. DeepSeek-R1 basiert auf dem DeepSeek-V3-Base-Modell und verwendet ein mehrstufiges Training und Kaltstartdaten, um die Inferenzfähigkeit zu verbessern.

Die Forscher von DeepSeek entwickelten zunächst DeepSeek-R1-Zero, ein Modell, das vollständig durch groß angelegtes verstärkendes Lernen trainiert wurde, ohne vorbereitende Schritte mit überwachtem Feintuning. DeepSeek-R1-Zero zeigte in Inferenz-Benchmark-Tests eine hervorragende Leistung, z. B. verbesserte sich der pass@1-Score im AIME2024-Test von 15,6 % auf 71,0 %.DeepSeek-R1-Zero hatte jedoch auch einige Probleme, wie z. B. schlechte Lesbarkeit und Sprachvermischung.
Um diese Probleme zu lösen und die Inferenzleistung weiter zu verbessern, entwickelte das DeepSeek-Team DeepSeek-R1. DeepSeek-R1 führt vor dem verstärkenden Lernen ein mehrstufiges Training und Kaltstartdaten ein. Konkret sammelten die Forscher zunächst Tausende von Kaltstartdaten, um das DeepSeek-V3-Base-Modell feinabzustimmen. Anschließend führten sie, wie beim Training von DeepSeek-R1-Zero, ein auf Inferenz ausgerichtetes verstärkendes Lernen durch. Als sich das verstärkende Lernen dem Konvergenzpunkt näherte, erstellten sie durch Ablehnungs-Sampling von verstärkenden Lern-Checkpoints neue Daten für das überwachte Feintuning und kombinierten diese mit den überwachten Daten von DeepSeek-V3 in den Bereichen Schreiben, Faktenfragen und Selbstwahrnehmung. Anschließend trainierten sie das DeepSeek-V3-Base-Modell erneut. Schließlich wurde der feinabgestimmte Checkpoint mit Prompts aus allen Szenarien einem zusätzlichen verstärkenden Lernen unterzogen.
DeepSeek-R1 erzielte in mehreren Benchmark-Tests bemerkenswerte Ergebnisse:
• Im AIME2024-Test erreichte DeepSeek-R1 einen pass@1-Score von 79,8 %, leicht über dem von OpenAI-o1-1217.
• Im MATH-500-Test erreichte DeepSeek-R1 einen pass@1-Score von 97,3 %, gleichauf mit OpenAI-o1-1217.
• Bei Code-Wettbewerbsaufgaben erreichte DeepSeek-R1 auf Codeforces eine Elo-Bewertung von 2029 und übertraf damit 96,3 % der menschlichen Teilnehmer.
• Bei Wissens-Benchmark-Tests (wie MMLU, MMLU-Pro und GPQA Diamond) erzielte DeepSeek-R1 Punktzahlen von 90,8 %, 84,0 % bzw. 71,5 % und übertraf damit DeepSeek-V3 deutlich.
• Bei anderen Aufgaben (wie kreativem Schreiben, allgemeinen Fragen, Bearbeiten, Zusammenfassen usw.) zeigte DeepSeek-R1 ebenfalls eine hervorragende Leistung.
Darüber hinaus untersuchte DeepSeek die Destillation der Inferenzfähigkeit von DeepSeek-R1 in kleinere Modelle. Die Forschung ergab, dass die direkte Destillation von DeepSeek-R1 effektiver ist als die Anwendung von verstärkendem Lernen auf kleine Modelle. Dies zeigt, dass die von großen Basismodellen entdeckten Inferenzmuster entscheidend für die Verbesserung der Inferenzfähigkeit sind.DeepSeek hat DeepSeek-R1-Zero, DeepSeek-R1 und sechs von DeepSeek-R1 destillierte dichte Modelle (1,5 B, 7 B, 8 B, 14 B, 32 B, 70 B) basierend auf Qwen und Llama als Open Source veröffentlicht. Die Einführung von DeepSeek-R1 markiert einen bedeutenden Fortschritt beim verstärkenden Lernen zur Verbesserung der Inferenzfähigkeit großer Sprachmodelle.
Kostenvorteile
In Bezug auf die Kosten bietet DeepSeek-R1 eine äußerst wettbewerbsfähige Preisstrategie. Der Preis für den API-Zugriff beträgt 0,14 USD pro Million Eingabe-Token (Cache-Treffer) und 0,55 USD (Cache-Verfehlen), Ausgabe-Token kosten 2,19 USD pro Million. Diese Preisstrategie ist im Vergleich zu anderen ähnlichen Produkten attraktiver und wird von Benutzern als „Game Changer“ bezeichnet. Die offizielle Website und die API sind jetzt online! Besuchen Sie https://chat.deepseek.com, um DeepThink zu erleben!

Community-Feedback und Zukunftsaussichten
Die Veröffentlichung von DeepSeek-R1 hat in der Community lebhafte Diskussionen ausgelöst. Viele Benutzer schätzen die Open-Source-Eigenschaften und die Kostenvorteile des Modells und sind der Meinung, dass es Entwicklern mehr Auswahl und Freiheit bietet. Einige Benutzer haben jedoch Fragen zur Größe des Kontextfensters des Modells und hoffen, dass zukünftige Versionen weiter optimiert werden.
Das DeepSeek-Team gab bekannt, dass es weiterhin an der Verbesserung der Leistung und des Benutzererlebnisses des Modells arbeiten und in Zukunft weitere Funktionen, einschließlich erweiterter Datenanalyse, einführen wird, um die Erwartungen der Benutzer an AGI (Allgemeine Künstliche Intelligenz) zu erfüllen.