Recientemente, Apple realizó un estudio sobre la capacidad de razonamiento de los modelos lingüísticos grandes (LLM, por sus siglas en inglés), lo que ha generado interés en el rendimiento de estos modelos en el ámbito de las matemáticas.

Como es sabido, el benchmark GSM8K se utiliza ampliamente para evaluar la capacidad de razonamiento de los modelos en problemas de matemáticas de primaria. Aunque el rendimiento de los LLM en GSM8K ha mejorado en los últimos años, los investigadores han cuestionado la fiabilidad de estos resultados. Por lo tanto, llevaron a cabo un estudio a gran escala para explorar el rendimiento de los modelos de código abierto y cerrado más avanzados.

Para evaluar mejor la capacidad de razonamiento de los modelos, el equipo de investigación introdujo un benchmark mejorado: GSM-Symbolic. Este nuevo benchmark utiliza plantillas simbólicas para generar problemas diversificados, lo que permite un mejor control del proceso de evaluación y proporciona métricas más fiables.

image.png

El estudio reveló que el rendimiento de los LLM fluctuaba significativamente cuando se modificaban los valores numéricos de los problemas. Más interesante aún, el rendimiento disminuyó notablemente a medida que aumentaba el número de cláusulas en el problema. Los investigadores especulan que esta disminución en el rendimiento indica que los LLM actuales no poseen una verdadera capacidad de razonamiento lógico, sino que simplemente imitan los pasos de razonamiento de los datos de entrenamiento.

En los experimentos, cuando se añadía una sola cláusula aparentemente relevante, el rendimiento de todos los modelos más avanzados disminuyó hasta en un 65%. Estas cláusulas, aunque no estaban relacionadas con la cadena de razonamiento para llegar a la respuesta final, tuvieron un gran impacto en el rendimiento del modelo. En general, este estudio proporciona una comprensión más profunda de las capacidades y limitaciones de los LLM en el razonamiento matemático.

Puntos clave:

🔍 La capacidad de razonamiento matemático de los LLM muestra diferencias significativas entre diferentes instancias de problemas.

📉 El rendimiento de los LLM disminuye notablemente a medida que aumenta la complejidad del problema, especialmente al agregar cláusulas adicionales.

🤖 Los LLM actuales no poseen una verdadera capacidad de razonamiento lógico; principalmente se basan en la repetición e imitación de los datos de entrenamiento.