Recientemente, el equipo de Sky Computing Lab de la Universidad de California, Berkeley, lanzó Sky-T1-32B-Preview, un modelo de inteligencia artificial de razonamiento de código abierto. Esto marca un avance significativo, haciendo que el desarrollo de IA de razonamiento sea más fácil y económico.

El modelo ha demostrado un rendimiento excepcional en varias pruebas de referencia clave, incluso comparable a las versiones anteriores de o1 de OpenAI.

El costo de entrenamiento de Sky-T1 es notablemente bajo: solo 450 dólares. Esto significa que la replicación de capacidades de razonamiento de alto nivel se ha vuelto más accesible y eficiente. Si bien 450 dólares puede parecer una cantidad considerable, representa una disminución significativa en comparación con los millones de dólares que costaba el entrenamiento hace unos años. Este bajo costo se logró gracias al uso de datos de entrenamiento sintéticos, generados por otros modelos. La empresa de IA Writer, recientemente lanzó Palmyra X004, que depende casi exclusivamente de datos sintéticos, con un costo de desarrollo de solo 700.000 dólares.

Cerebro, Modelo grande, IA

Nota de la fuente: Imagen generada por IA, proveída por Midjourney.

A diferencia de la mayoría de las IA, los modelos de razonamiento pueden autoverificarse eficazmente, lo que los hace más confiables al abordar ciertos problemas comunes. Si bien los modelos de razonamiento suelen tardar más en llegar a una solución (de segundos a minutos), su fiabilidad es una ventaja significativa en campos como la física, la ciencia y las matemáticas.

El equipo de NovaSky utilizó otro modelo de razonamiento, QwQ-32B-Preview de Alibaba, para generar los datos de entrenamiento iniciales de Sky-T1. Estos datos fueron "cuidadosamente seleccionados" y luego reorganizados en un formato más manejable utilizando GPT-4o-mini de OpenAI. El entrenamiento de Sky-T1, con sus 3.200 millones de parámetros, tomó aproximadamente 19 horas utilizando un conjunto de 8 GPU Nvidia H100. La cantidad de parámetros está aproximadamente relacionada con la capacidad del modelo para resolver problemas.

Según el equipo de NovaSky, Sky-T1 superó a las versiones preliminares de o1 en MATH500, un conjunto de desafíos matemáticos de "nivel competitivo". Además, Sky-T1 superó las versiones preliminares de o1 en los problemas difíciles encontrados en LiveCodeBench. Sin embargo, en problemas de física, biología y química, Sky-T1 tuvo un rendimiento inferior a la versión preliminar de o1 en la prueba GPQA-Diamond.

Cabe señalar que la versión GA de o1 de OpenAI es más potente que su versión preliminar, y OpenAI espera lanzar un modelo de razonamiento aún mejor, o3, en las próximas semanas. Sin embargo, el equipo de NovaSky afirma que Sky-T1 es solo el comienzo de su viaje para desarrollar modelos de código abierto con capacidades de razonamiento avanzadas.

"En el futuro, nos centraremos en desarrollar modelos más eficientes que mantengan un alto rendimiento de razonamiento, y exploraremos tecnologías avanzadas para mejorar aún más la eficiencia y la precisión de los modelos", escribió el equipo en su blog. "Sigan atentos a nuestros avances en estos emocionantes proyectos."