DeepScaleR-1.5B-Vorschau ist ein großes Sprachmodell, das durch Reinforcement Learning optimiert wurde und sich auf die Verbesserung der Fähigkeiten zur Lösung mathematischer Probleme konzentriert. Durch einen verteilten Reinforcement-Learning-Algorithmus wurde die Genauigkeit bei der Inferenz mit langen Texten deutlich verbessert. Zu den Hauptvorteilen gehören eine effiziente Trainingsstrategie, eine deutliche Leistungssteigerung und die Flexibilität eines Open-Source-Modells. Das Modell wurde vom Sky Computing Lab und dem Berkeley AI Research Team der University of California, Berkeley, entwickelt, um den Einsatz von künstlicher Intelligenz im Bildungsbereich, insbesondere im Mathematikunterricht und im Bereich des Wettbewerbsmathematiks, voranzutreiben. Das Modell wird unter der MIT Open-Source-Lizenz veröffentlicht und steht Forschern und Entwicklern völlig kostenlos zur Verfügung.