Am 24. Februar wurde das von 360 Zhi Nao und der Peking Universität gemeinsam entwickelte mittelgroße Inferenzmodell Tiny-R1-32B-Preview offiziell veröffentlicht. Dieses Modell erreicht mit nur 5 % des Parameterumfangs fast die volle Leistung von Deepseek-R1-671B und zeigt das enorme Potenzial kleiner Modelle im Bereich des effizienten Inferenz.
Das Modell zeigt besonders in mehreren Schlüsselbereichen hervorragende Leistungen. Im mathematischen Bereich erzielte Tiny-R1-32B-Preview im AIME2024-Test 78,1 Punkte, was dem Ergebnis des Originalmodells R1 (79,8 Punkte) sehr nahe kommt und deutlich über den 70,0 Punkten von Deepseek-R1-Distill-Llama-70B liegt. In den Bereichen Programmierung und Naturwissenschaften erzielte das Modell im LiveCodeBench- und GPQA-Diamond-Test 61,6 bzw. 65,0 Punkte und übertraf damit deutlich das derzeit beste quelloffene 70B-Modell Deepseek-R1-Distill-Llama-70B. Dieses Ergebnis beweist nicht nur die überragende Leistung von Tiny-R1-32B-Preview, sondern reduziert auch die Inferenzkosten durch nur 5 % des Parameterumfangs erheblich und erzielt einen Effizienzsprung.
Die Kerntechnologie hinter diesem Durchbruch ist die „Teile und Herrsche-Fusion“-Strategie. Das Forschungsteam trainierte auf Basis von DeepSeek-R1 generierten, umfangreichen Daten Modellen für die drei vertikalen Bereiche Mathematik, Programmierung und Naturwissenschaften. Anschließend wurden diese mithilfe des Mergekit-Tools des Arcee-Teams intelligent fusioniert, wodurch die Leistungsgrenze einzelner Modelle überschritten und eine ausgeglichene Optimierung für mehrere Aufgaben erreicht wurde. Dieser innovative technologische Ansatz verbessert nicht nur die Leistung des Modells, sondern bietet auch neue Ansätze für die zukünftige Entwicklung von Inferenzmodellen.
Das gemeinsame Forschungs- und Entwicklungsteam von 360 Zhi Nao und der Peking Universität betont, dass der Erfolg von Tiny-R1-32B-Preview auf der Unterstützung der Open-Source-Community beruht. Das Modell profitiert von DeepSeek-R1-Destillation, DeepSeek-R1-Distill-32B-Inkrementierungstraining und Modellfusion.
Um die Technologie für alle zugänglich zu machen, hat das Forschungs- und Entwicklungsteam zugesagt, das vollständige Modell-Repository öffentlich zugänglich zu machen, einschließlich des technischen Berichts, des Trainingscodes und eines Teils der Datensätze. Das Modell-Repository wurde auf der Hugging Face-Plattform unter folgender Adresse veröffentlicht: https://huggingface.co/qihoo360/TinyR1-32B-Preview.