SmolLM2 est une série de modèles linguistiques légers, comprenant des versions de 135M, 360M et 1,7 milliard de paramètres. Ces modèles permettent de résoudre un large éventail de tâches tout en restant légers, particulièrement adaptés à une utilisation sur appareil. La version 1,7 milliard de paramètres affiche des progrès significatifs par rapport à son prédécesseur, SmolLM1-1,7B, en matière de suivi d'instructions, de connaissances, de raisonnement et de mathématiques. Il a été entraîné sur plusieurs ensembles de données, notamment FineWeb-Edu, DCLM et The Stack, et optimisé directement par préférence (DPO) grâce à UltraFeedback. Ce modèle prend également en charge des tâches telles que la réécriture de texte, la summarisation et les appels de fonctions.