Recientemente, investigadores de Apple realizaron un estudio profundo sobre la capacidad de razonamiento matemático de los modelos lingüísticos grandes (LLM, por sus siglas en inglés), presentando una nueva prueba de referencia llamada GSM-Symbolic.
Esta nueva prueba de referencia se basa en GSM8K, que se utiliza principalmente para evaluar las capacidades matemáticas básicas. Si bien muchos LLM han mostrado mejoras en GSM8K, la comunidad científica sigue cuestionando la capacidad de razonamiento de estos modelos, considerando que los indicadores de evaluación existentes podrían no reflejar completamente sus capacidades reales. El estudio descubrió que los LLM suelen depender del ajuste de patrones probabilísticos, en lugar del razonamiento lógico real, lo que los hace muy sensibles a pequeños cambios en la entrada.
En esta nueva investigación, los investigadores utilizaron plantillas simbólicas para generar problemas matemáticos diversos, proporcionando así una evaluación más fiable. Los resultados experimentales mostraron que, al aumentar el valor numérico o la complejidad del problema, el rendimiento de los LLM disminuye significativamente. Además, incluso agregar información superficialmente relevante pero en realidad irrelevante puede provocar una disminución del rendimiento del modelo hasta en un 65%. Estos resultados confirman una vez más que los LLM se basan más en el ajuste de patrones que en el razonamiento lógico formal al realizar inferencias.
El conjunto de datos GSM8K contiene más de 8000 problemas matemáticos adecuados para el nivel escolar, y su popularidad ha generado algunos riesgos, como la contaminación de datos y las fluctuaciones de rendimiento causadas por pequeños cambios en los problemas. Para abordar estos desafíos, GSM-Symbolic permite un control eficaz de la diversidad de los problemas. Esta prueba de referencia evaluó más de 20 modelos abiertos y cerrados, utilizando 5000 muestras de 100 plantillas, mostrando una profunda comprensión y las limitaciones de la capacidad de razonamiento matemático de los LLM.
Los experimentos preliminares indican que las diferencias de rendimiento entre los diferentes modelos en GSM-Symbolic son significativas, con una precisión general inferior a la informada en GSM8K. La investigación exploró además el efecto de cambiar los nombres de las variables y los valores numéricos en los LLM, mostrando que los cambios numéricos tienen un impacto mayor en el rendimiento. Además, la complejidad del problema también afecta directamente a la precisión, y los problemas complejos provocan una disminución significativa del rendimiento. Estos resultados sugieren que los modelos pueden depender más del ajuste de patrones que de la verdadera capacidad de razonamiento al procesar problemas matemáticos.
Este estudio destaca las limitaciones de la evaluación actual de GSM8K y presenta la nueva prueba de referencia GSM-Symbolic, diseñada para evaluar la capacidad de razonamiento matemático de los LLM. En general, los resultados del estudio indican que los LLM necesitan mejorar aún más su capacidad de razonamiento lógico para abordar problemas complejos.
Artículo: https://arxiv.org/abs/2410.05229
Puntos clave:
🧮 Los investigadores presentan la nueva prueba de referencia GSM-Symbolic para evaluar la capacidad de razonamiento matemático de los LLM.
📉 Los LLM muestran un rendimiento deficiente en problemas matemáticos complejos, dependiendo del ajuste de patrones en lugar del razonamiento lógico.
📊 El estudio revela diferencias significativas en el rendimiento de diferentes modelos en la nueva prueba de referencia, haciendo un llamado a mejorar los métodos de evaluación.