En el mundo de la inteligencia artificial, la capacidad de razonamiento de los modelos de aprendizaje automático, especialmente los grandes modelos de lenguaje (LLM), ha sido siempre un foco de atención para los científicos.

Recientemente, el equipo de investigación de IA de Apple publicó un artículo titulado "Comprender las limitaciones de los grandes modelos de lenguaje en el razonamiento matemático", que nos revela las limitaciones de estos modelos al abordar problemas lógicos.

image.png

En el artículo, los investigadores muestran esto a través de un simple problema matemático. Primero plantean un problema sobre Oliver recogiendo kiwis:

Como se muestra a continuación:

Oliver recogió 44 kiwis el viernes. El sábado recogió 58 kiwis más. El domingo recogió el doble de kiwis que el viernes. ¿Cuántos kiwis recogió Oliver en total?

Obviamente, la respuesta es 44 + 58 + (44 * 2) = 190. Aunque los grandes modelos de lenguaje no son realmente perfectos en aritmética, pueden resolver este tipo de problemas con bastante fiabilidad.

Pero si añadimos información irrelevante para observar la reacción del modelo, por ejemplo:

Oliver recogió 44 kiwis el viernes. El sábado recogió 58. El domingo recogió el doble de kiwis que el viernes, pero 5 de ellos eran un poco más pequeños que el tamaño promedio. ¿Cuántos kiwis recogió Oliver?

Aunque esto no cambia la esencia matemática del problema, incluso los LLM más avanzados dan respuestas incorrectas ante esta pequeña perturbación. Por ejemplo, GPT-o1-mini restó incorrectamente los 5 kiwis pequeños del total de kiwis recogidos el domingo.

2.jpg

Este experimento demuestra que, aunque los LLM pueden dar respuestas correctas en algunos casos, no entienden realmente la esencia del problema.

Los investigadores argumentan que los patrones de fallo de estos modelos indican que no realizan un razonamiento lógico real, sino que copian los pasos de razonamiento que han observado en los datos de entrenamiento. Es como si un LLM pudiera contar que "te amo" suele ir seguido de "yo también te amo", pero eso no significa que realmente entienda el significado del amor.

image.png

Uno de los coautores del artículo, Mehrdad Farajtabar, explicó más a fondo este descubrimiento en las redes sociales. Señaló que, aunque la mejor ingeniería de prompts puede mejorar el rendimiento del modelo en algunos casos simples, para perturbaciones complejas, el modelo puede necesitar más datos de contexto para procesarlos correctamente, perturbaciones que para un niño no serían un problema.

Esta investigación nos recuerda que, aunque los LLM destacan en el procesamiento del lenguaje, su capacidad de razonamiento lógico sigue siendo limitada. Esto no es sólo un problema académico; a medida que la IA se convierte cada vez más en parte de nuestra vida diaria, las respuestas a estas preguntas se vuelven cada vez más importantes.

No podemos simplemente asumir que la IA puede comprender y realizar tareas complejas, sino que debemos comprender mejor su funcionamiento y sus limitaciones. Esta investigación nos proporciona una comprensión más profunda de la tecnología de la IA, y también nos ofrece valiosas ideas sobre cómo utilizar y desarrollar estas tecnologías.

Referencias: https://techcrunch.com/2024/10/11/researchers-question-ais-reasoning-ability-as-models-stumble-on-math-problems-with-trivial-changes/