Recientemente, investigadores del Instituto Mila, Google DeepMind y Microsoft Research realizaron una investigación exhaustiva sobre la capacidad de razonamiento de los modelos de lenguaje de IA, descubriendo una deficiencia significativa en modelos pequeños y económicos al abordar problemas complejos.
El estudio se centró en una prueba llamada "GSM combinado", diseñada para evaluar el rendimiento de estos modelos en la resolución de problemas matemáticos básicos en cadena.
Nota de la fuente de la imagen: Imagen generada por IA, proveedor de servicios de licencias de imágenes Midjourney
Los investigadores combinaron dos problemas del conjunto de datos GSM8K, utilizando la respuesta del primer problema como variable para el segundo. Los resultados mostraron que la mayoría de los modelos tuvieron un rendimiento muy inferior a lo esperado en estas tareas de razonamiento complejas, especialmente en los modelos pequeños. Aunque los modelos pequeños obtuvieron puntuaciones similares a las de los modelos grandes en pruebas matemáticas estándar como GSM8K, su brecha lógica aumentó considerablemente en la nueva prueba combinada, entre 2 y 12 veces.
Por ejemplo, GPT-4o mini tuvo un rendimiento mucho peor que GPT-4o en la nueva prueba, a pesar de ser casi equivalente en las pruebas de referencia originales. Otros modelos como Gemini y LLAMA3 mostraron un comportamiento similar. La investigación sugiere que, si bien estos modelos pequeños pueden identificar patrones superficiales en tareas comunes, tienen dificultades para aplicar este conocimiento en nuevos contextos.
El estudio también descubrió deficiencias incluso en modelos pequeños diseñados específicamente para matemáticas. Por ejemplo, Qwen2.5-Math-7B-IT obtuvo una puntuación superior al 80% en problemas de matemáticas de nivel de secundaria de alta dificultad, pero menos del 60% de precisión en problemas matemáticos básicos en cadena. En modelos más pequeños, el método de ajuste de instrucciones, aunque mejoró significativamente el rendimiento en la prueba GSM8K original, tuvo una mejora mínima en la prueba GSM combinada.
Este estudio no es completamente actual, ya que el modelo de optimización lógica o1 recientemente lanzado por OpenAI no se incluyó en la prueba. Aunque hay indicios de que o1 ha mejorado significativamente su capacidad de planificación, el estudio muestra que los humanos siguen siendo superiores en velocidad y elegancia al resolver problemas matemáticos. El modelo Gemini de Google también ha mostrado una mayor capacidad matemática después de actualizaciones recientes.
Los investigadores destacan que los métodos de evaluación existentes pueden enmascarar las diferencias sistemáticas entre estos modelos, lo que lleva a una sobreestimación de las capacidades de los modelos pequeños. Hacen un llamado a una reevaluación de las estrategias de desarrollo de sistemas de IA de bajo costo, cuestionando las limitaciones inherentes de estos modelos en razonamiento complejo y capacidad de generalización. Esta investigación proporciona una comprensión más profunda de las limitaciones de los sistemas de IA.
Puntos clave:
📉 Los modelos de lenguaje de IA pequeños tienen un rendimiento deficiente en la resolución de problemas matemáticos en cadena, con una brecha lógica de hasta 12 veces.
🧮 Incluso los modelos pequeños diseñados específicamente para matemáticas tienen una precisión inferior al 60% en problemas básicos.
🔍 Los métodos de evaluación existentes pueden sobreestimar las capacidades de los modelos pequeños; es necesario reconsiderar sus estrategias de desarrollo.