Recientemente, investigadores de IA de la Universidad de Stanford y la Universidad de Washington entrenaron con éxito un modelo de razonamiento de IA llamado s1, con un costo de entrenamiento inferior a 50 dólares y una cantidad muy baja de créditos de computación en la nube. Este logro, publicado el viernes pasado, muestra que s1 se desempeña tan bien como los modelos de OpenAI o1 y DeepSeek R1 en pruebas de matemáticas y programación. El código y los datos de s1 se han publicado en GitHub para que otros investigadores los utilicen.
El equipo de investigación afirma que partieron de un modelo base preexistente y lo ajustaron mediante la técnica de destilación para extraer la capacidad de razonamiento deseada. El proceso de destilación de s1 utilizó el modelo Gemini2.0Flash Thinking Experimental de Google, un método similar al empleado por investigadores de la Universidad de California, Berkeley, el mes pasado para entrenar otro modelo de razonamiento de IA, con un costo de aproximadamente 450 dólares.
Este resultado ha entusiasmado a muchos, especialmente en el actual panorama de la IA, donde los investigadores pueden innovar sin necesidad de una financiación masiva. Sin embargo, la aparición de s1 también ha suscitado reflexiones sobre la mercantilización de los modelos de IA. Si cualquiera puede replicar modelos multimillonarios a un costo relativamente bajo, ¿dónde está el foso de las grandes empresas?
Evidentemente, los grandes laboratorios de IA no están contentos; OpenAI acusó a DeepSeek de usar indebidamente sus datos de API para la destilación de modelos. El equipo de investigación de s1 espera encontrar una forma sencilla de lograr un rendimiento de razonamiento potente, mejorando al mismo tiempo la capacidad de "expansión del tiempo de prueba", es decir, dar al modelo de IA más tiempo para pensar antes de responder. Estas son mejoras logradas por el modelo o1 de OpenAI, que DeepSeek y otros laboratorios de IA intentan replicar con diferentes métodos.
La investigación de s1 muestra que, mediante un conjunto de datos relativamente pequeño, el ajuste fino supervisado (SFT) puede destilar eficazmente modelos de razonamiento, un método generalmente más económico que el aprendizaje por refuerzo a gran escala empleado por DeepSeek. Google también ofrece acceso gratuito a Gemini2.0Flash Thinking Experimental, pero la plataforma tiene límites de uso diario y sus términos prohíben la ingeniería inversa de su modelo para desarrollar servicios de la competencia.
Para entrenar s1, los investigadores crearon un conjunto de datos de 1000 preguntas cuidadosamente seleccionadas y sus respuestas correspondientes, junto con el proceso de "pensamiento" detrás de las preguntas. El entrenamiento se realizó con 16 GPU Nvidia H100 y duró menos de 30 minutos. Según los investigadores, ahora pueden alquilar los recursos informáticos necesarios por aproximadamente 20 dólares. Además, el equipo utilizó un ingenioso truco: agregar la palabra "esperando" mientras s1 razona, lo que mejora la precisión de las respuestas.
En el futuro, en 2025, Meta, Google y Microsoft planean invertir cientos de miles de millones de dólares en infraestructura de IA, parte de los cuales se destinarán al entrenamiento de la próxima generación de modelos de IA. Aunque la técnica de destilación ha demostrado ser eficaz para reproducir modelos de IA a un costo menor, no ha mejorado significativamente el rendimiento de los nuevos modelos de IA.
Artículo: https://arxiv.org/pdf/2501.19393
Código: https://github.com/simplescaling/s1
Puntos clave:
🌟 El costo de entrenamiento del modelo s1 es inferior a 50 dólares, y su rendimiento es comparable al de los mejores modelos de razonamiento.
🛠️ El equipo de investigación utilizó la técnica de destilación para extraer la capacidad de razonamiento de un modelo existente, con un proceso de entrenamiento rápido y eficiente.
🚀 Los grandes laboratorios de IA muestran preocupación por la replicación de modelos a bajo costo, y las futuras inversiones se centrarán en la infraestructura de IA.