SmolLM2 es una serie de modelos de lenguaje ligeros, que incluyen versiones de 135M, 360M y 1.7B parámetros. Estos modelos pueden resolver una amplia gama de tareas manteniendo un tamaño reducido, siendo especialmente adecuados para su ejecución en dispositivos. La versión de 1.7B parámetros muestra una mejora significativa en el seguimiento de instrucciones, el conocimiento, el razonamiento y las matemáticas en comparación con su predecesor, SmolLM1-1.7B. Se ha entrenado utilizando múltiples conjuntos de datos, incluyendo FineWeb-Edu, DCLM y The Stack, y se ha optimizado mediante optimización directa de preferencias (DPO) utilizando UltraFeedback. El modelo también admite tareas como reescritura de texto, resumen y llamadas a funciones.