Un equipo de investigación de las universidades de Stanford y Washington ha publicado recientemente un método innovador para el entrenamiento de IA, denominado S1. Su concepto central radica en el uso de una técnica de escalado extremadamente simple en el momento de la prueba para mejorar significativamente la capacidad de razonamiento de los modelos de lenguaje. A diferencia de los métodos anteriores que dependían de una gran potencia de cálculo o algoritmos complejos, S1 logra un salto en el rendimiento mediante el control inteligente de la asignación de recursos computacionales del modelo durante la prueba.
El método S1 comienza construyendo un pequeño conjunto de datos llamado s1K, que contiene 1000 problemas de razonamiento de alta calidad. Los criterios de selección para este conjunto de datos son extremadamente rigurosos: alta dificultad, gran diversidad y alta calidad. El equipo de investigación verificó la importancia de estos tres criterios mediante exhaustivos experimentos de ablación, demostrando que la selección aleatoria o la concentración en un solo criterio provocan una disminución significativa del rendimiento. Cabe destacar que, incluso entrenando con un superconjunto de 59.000 muestras, los resultados son mucho peores que con las 1000 muestras cuidadosamente seleccionadas, lo que subraya la importancia de la selección de datos.
Una vez entrenado el modelo, los investigadores utilizan una técnica llamada "restricción presupuestaria" para controlar la cantidad de cómputo durante la prueba. En términos sencillos, este método fuerza la interrupción del proceso de razonamiento del modelo o añade instrucciones de "espera" para prolongar el tiempo de reflexión, lo que guía al modelo a una exploración y verificación más profunda. De esta manera, el modelo puede revisar repetidamente los pasos del razonamiento y corregir eficazmente los errores.
Los resultados experimentales muestran que, después del ajuste fino en el conjunto de datos s1K y con la ayuda de la técnica de "restricción presupuestaria", el modelo s1-32B supera al modelo o1-preview de OpenAI en problemas matemáticos de nivel competitivo en un 27%. Sorprendentemente, mediante el escalado con "restricción presupuestaria", el modelo s1-32B también muestra una capacidad de generalización que supera su nivel de entrenamiento, aumentando su puntuación en el conjunto de pruebas AIME24 del 50% al 57%.
La principal contribución de esta investigación radica en que proporciona un método simple y eficiente para crear conjuntos de datos con alta capacidad de razonamiento y lograr el escalado del rendimiento durante la prueba. Sobre esta base, el equipo de investigación ha creado el modelo s1-32B, cuyo rendimiento es comparable o incluso superior al de los modelos de código cerrado, a la vez que es de código abierto y altamente eficiente en el uso de muestras. El código, el modelo y los datos de esta investigación se han publicado en GitHub.
Los investigadores también realizaron experimentos de ablación exhaustivos sobre los matices de los datos y la técnica de escalado durante la prueba. En cuanto a los datos, descubrieron que es crucial considerar simultáneamente la dificultad, la diversidad y la calidad. En cuanto al escalado durante la prueba, el método de "restricción presupuestaria" mostró una excelente capacidad de control y mejora del rendimiento. La investigación también exploró dos métodos diferentes de escalado, paralelo y secuencial, e introdujo técnicas avanzadas como REBASE, ofreciendo importantes perspectivas para futuras investigaciones.
Esta investigación no solo aporta una nueva perspectiva de bajo coste y alta eficiencia al campo del entrenamiento de IA, sino que también sienta una base sólida para aplicaciones de IA más amplias.
Enlace del artículo: https://arxiv.org/pdf/2501.19393