Kürzlich haben KI-Forscher der Stanford University und der University of Washington ein KI-Inferenzmodell namens s1 trainiert, dessen Trainingskosten unter 50 US-Dollar lagen und nur sehr geringe Cloud-Computing-Credits benötigte. Die am vergangenen Freitag veröffentlichte Studie zeigt, dass s1 in Mathematik- und Programmierfähigkeitstests mit den Modellen o1 von OpenAI und R1 von DeepSeek mithalten kann. Der Code und die Daten von s1 wurden auf GitHub veröffentlicht und stehen anderen Forschern zur Verfügung.

image.png

Das Forschungsteam gab an, dass sie von einem bestehenden Basismodell ausgegangen sind und es durch Destillationstechniken feinabgestimmt haben, um die benötigten Inferenzfähigkeiten zu extrahieren. Für den Destillationsprozess von s1 wurde das Gemini2.0Flash Thinking Experimental-Modell von Google verwendet. Diese Methode ähnelt der, die Forscher der University of California, Berkeley, letzten Monat beim Training eines anderen KI-Inferenzmodells verwendet haben, dessen Trainingskosten sich auf etwa 450 US-Dollar beliefen.

Dieses Ergebnis begeistert viele, besonders in der heutigen KI-Landschaft, in der Innovationen auch ohne riesige finanzielle Mittel möglich sind. Das Aufkommen von s1 wirft jedoch auch Fragen zur Kommerzialisierung von KI-Modellen auf. Wenn jeder mit relativ geringen Kosten Millionen-Dollar-Modelle replizieren kann, wo liegt dann der Wettbewerbsvorteil der großen Unternehmen?

Offensichtlich sind die großen KI-Labore damit nicht zufrieden. OpenAI hat DeepSeek bereits beschuldigt, Daten seiner API für die Modelldestillation missbräuchlich verwendet zu haben. Das s1-Forschungsteam hofft, eine einfache Methode zu finden, um leistungsstarke Inferenzfähigkeiten zu erreichen und gleichzeitig die „Testzeit-Skalierung“ zu verbessern, d. h. dem KI-Modell mehr Zeit zum Nachdenken zu geben, bevor es eine Antwort liefert. Dies sind Durchbrüche, die das o1-Modell von OpenAI erzielt hat, und DeepSeek und andere KI-Labore versuchen, dies mit verschiedenen Methoden zu replizieren.

Die s1-Studie zeigt, dass durch einen relativ kleinen Datensatz mit der Methode des überwachten Feinabstimmens (SFT) Inferenzmodelle effektiv destilliert werden können. Diese Methode ist in der Regel kostengünstiger als die von DeepSeek verwendete Methode des groß angelegten verstärkenden Lernens. Google bietet zwar kostenlosen Zugriff auf Gemini2.0Flash Thinking Experimental, aber die Plattform hat tägliche Nutzungsbeschränkungen und die Nutzungsbedingungen verbieten das Reverse Engineering des Modells zur Entwicklung konkurrierender Dienste.

Um s1 zu trainieren, erstellten die Forscher einen Datensatz mit 1000 sorgfältig ausgewählten Fragen und ihren entsprechenden Antworten, zusammen mit dem „Denkprozess“ hinter den Fragen. Das Training erfolgte mit 16 Nvidia H100 GPUs und dauerte weniger als 30 Minuten. Laut den Forschern benötigen sie heute nur noch etwa 20 US-Dollar, um die benötigten Rechenressourcen zu mieten. Darüber hinaus verwendete das Forschungsteam einen cleveren Trick, um s1 beim Schließen das Wort „Warten“ hinzuzufügen, wodurch die Genauigkeit der Antworten verbessert wurde.

Im Jahr 2025 planen Meta, Google und Microsoft Investitionen in Milliardenhöhe in die KI-Infrastruktur, wobei ein Teil der Mittel für das Training der nächsten Generation von KI-Modellen verwendet wird. Obwohl die Destillationstechnik eine gute Leistung bei der Replizierung von KI-Modellen zu geringeren Kosten zeigt, führt sie nicht zu einer signifikanten Verbesserung der Leistung neuer KI-Modelle.

Artikel:https://arxiv.org/pdf/2501.19393

Code:https://github.com/simplescaling/s1

Wichtigste Punkte:

🌟 Das s1-Modell wurde für unter 50 US-Dollar trainiert und erreicht eine Leistung, die mit der von Top-Inferenzmodellen vergleichbar ist.

🛠️ Das Forschungsteam extrahierte Inferenzfähigkeiten aus einem bestehenden Modell mithilfe von Destillationstechniken. Der Trainingsprozess war schnell und effizient.

🚀 Große KI-Labore zeigen sich besorgt über die kostengünstige Replizierung von Modellen. Zukünftige Investitionen werden sich auf die KI-Infrastruktur konzentrieren.