Recientemente, la controversia sobre las pruebas de referencia de inteligencia artificial se ha intensificado en el ámbito público. Un empleado de OpenAI acusó a xAI, la empresa de IA fundada por Musk, de publicar resultados engañosos de las pruebas de referencia de Grok3, mientras que el cofundador de xAI, Igor Babuschkin, insistió en que la empresa no tenía ningún problema.
El incidente comenzó cuando xAI publicó en su blog un gráfico que mostraba el rendimiento de Grok3 en la prueba AIME2025. AIME2025 es un conjunto de problemas matemáticos desafiantes de una reciente competición matemática. Aunque algunos expertos dudan de la eficacia de AIME como referencia para la IA, sigue siendo ampliamente utilizado para evaluar las capacidades matemáticas de los modelos.
El gráfico de xAI mostraba que dos variantes de Grok3, Grok3Reasoning Beta y Grok3mini Reasoning, superaban al modelo actual de OpenAI, o3-mini-high, en el AIME2025. Sin embargo, los empleados de OpenAI rápidamente señalaron que el gráfico de xAI no incluía la puntuación de o3-mini-high en AIME2025 calculada con "cons@64".
Entonces, ¿qué es cons@64? Es la abreviatura de "consensus@64". En pocas palabras, proporciona al modelo 64 intentos para responder a cada pregunta y utiliza la respuesta más frecuente como respuesta final. Es fácil imaginar que el mecanismo de puntuación cons@64 mejorará significativamente la puntuación de referencia del modelo. Por lo tanto, omitir estos datos en el gráfico podría dar la impresión errónea de que un modelo supera a otro, cuando en realidad no es así.
Las puntuaciones "@1" de Grok3Reasoning Beta y Grok3mini Reasoning en AIME2025, es decir, la puntuación obtenida en el primer intento, fueron en realidad inferiores a las de o3-mini-high. El rendimiento de Grok3Reasoning Beta también fue ligeramente inferior al del modelo o1 de OpenAI. A pesar de ello, xAI sigue promocionando Grok3 como la "IA más inteligente del mundo".
Babuschkin respondió en las redes sociales afirmando que OpenAI también había publicado gráficos de referencia engañosos similares en el pasado, principalmente comparando el rendimiento de sus propios modelos. Un experto neutral compiló el rendimiento de varios modelos en un gráfico más "preciso", lo que provocó un debate más amplio.
Además, el investigador de IA Nathan Lambert señaló que un indicador aún más importante sigue siendo incierto: el coste computacional (y financiero) necesario para que los modelos obtengan las mejores puntuaciones. Esto demuestra que la información transmitida por la mayoría de las pruebas de referencia de IA actuales sigue siendo limitada en cuanto a las limitaciones y ventajas de los modelos.
Puntos clave:
🔍 La controversia entre xAI y OpenAI sobre los resultados de las pruebas de referencia de Grok3 ha suscitado una gran atención.
📊 El gráfico de xAI no incluyó el indicador de puntuación clave "cons@64" de los modelos OpenAI, lo que podría ser engañoso.
💰 El coste computacional y financiero sigue siendo un misterio detrás del rendimiento de los modelos de IA.