SmolLM2 ist eine Reihe leichtgewichtiger Sprachmodelle mit Varianten von 135 Millionen, 360 Millionen und 1,7 Milliarden Parametern. Diese Modelle lösen eine breite Palette von Aufgaben, bleiben dabei aber leichtgewichtig und eignen sich besonders für den Einsatz auf Geräten. Die 1,7-Milliarden-Parameter-Version zeigt im Vergleich zum Vorgängermodell SmolLM1-1.7B signifikante Verbesserungen in den Bereichen Anweisungsbefolgung, Wissen, Schlussfolgerung und Mathematik. Es wurde mit mehreren Datensätzen trainiert, darunter FineWeb-Edu, DCLM und The Stack, und mittels UltraFeedback direkt präferenzoptimiert (DPO). Das Modell unterstützt auch Aufgaben wie das Umschreiben und Zusammenfassen von Texten sowie Funktionsaufrufe.