Das 360 Zhi Nao-Team gab kürzlich bekannt, die Verstärkungslernergebnisse von DeepSeek erfolgreich reproduziert und das Open-Source-Inferenzmodell Light-R1-14B-DS veröffentlicht zu haben. Dieses Modell übertrifft DeepSeek-R1-Distill-Llama-70B und DeepSeek-R1-Distill-Qwen-32B in seiner Leistung und ist das erste Modell mit 14 Milliarden Parametern, das Verstärkungslernen erfolgreich einsetzt. Es verbessert die mathematischen Schlussfolgerungsfähigkeiten deutlich und erzielt Ergebnisse, die die meisten Modelle mit 32 Milliarden Parametern übertreffen.

QQ20250314-100519.png

Im Vergleich zu DeepSeek-R1-14B zeigt Light-R1-14B-DS* herausragende Leistungen in mathematischen Wettbewerbsaufgaben: Im AIME24-Test erzielte es eine Verbesserung von 4,3 Punkten, im AIME25 sogar 10 Punkte. Darüber hinaus erreichte das Modell beim mathematischen Schlussfolgerungsaufgaben GPQA hervorragende 61,7 Punkte.

Um diesen Durchbruch zu erreichen, verwendete das 360 Zhi Nao-Team zwei innovative Trainingsmethoden. Erstens Curriculum SFT (stufenweises überwachtes Feintuning), bei dem das Modell durch stufenweises Training von einfachen zu komplexen mathematischen Problemen lernt und seine logischen Schlussfolgerungsfähigkeiten verbessert. Zweitens Verstärkungslernen (RL), das erstmals erfolgreich in einem Inferenzmodell mit 14 Milliarden Parametern eingesetzt wurde und nicht nur die Genauigkeit der Schlussfolgerungen verbessert, sondern auch sicherstellt, dass andere Fähigkeiten weitgehend erhalten bleiben.

Die Veröffentlichung umfasst nicht nur das Modell selbst, sondern auch Open-Source-SFT-Daten, Code und einen technischen Bericht, die der Branche wertvolle Ressourcen bieten. Dieses Ergebnis markiert einen wichtigen Fortschritt bei der Anwendung von Verstärkungslernen auf kleinere Modelle und könnte die Verbreitung und Weiterentwicklung von KI-Schlussfolgerungsfähigkeiten vorantreiben.

Projekt-Adresse: https://github.com/Qihoo360/Light-R1

Modell-Adresse: https://huggingface.co/qihoo360/Light-R1-14B-DS

Daten-Adresse: https://huggingface.co/datasets/qihoo360/Light-R1-SFTData