Recientemente, investigadores de la Universidad de California, Los Ángeles, y Amazon realizaron un análisis profundo de la capacidad de razonamiento de los grandes modelos de lenguaje (LLM). Por primera vez, diferenciaron sistemáticamente entre el razonamiento inductivo y el deductivo, explorando el grado de dificultad que ambos presentan para los sistemas de IA.

Intercambio de rostros con IA, reconocimiento facial (2)

Nota de la fuente: La imagen fue generada por IA, con licencia de Midjourney.

El razonamiento inductivo consiste en deducir leyes generales a partir de observaciones específicas, mientras que el razonamiento deductivo aplica reglas generales a casos particulares. El objetivo del estudio era determinar qué tipo de razonamiento resulta más desafiante para los grandes modelos de lenguaje. Para ello, el equipo de investigación desarrolló un nuevo método llamado "SolverLearner". Este método permite que el modelo aprenda una función a partir de unos pocos ejemplos, mapeando la entrada a la salida. Posteriormente, un programa externo utiliza esta función, evitando así la confusión con el razonamiento deductivo.

Los resultados del estudio muestran que los modelos de lenguaje como GPT-4 tienen un rendimiento excelente en el razonamiento inductivo, alcanzando una precisión cercana al 100% con el método "SolverLearner". Sin embargo, en el razonamiento deductivo, especialmente en tareas "contrafactuales", los modelos muestran dificultades. Por ejemplo, los modelos se desempeñan bien en tareas aritméticas decimales, pero tienen problemas con cálculos en otros sistemas numéricos. Además, los modelos muestran poca flexibilidad al analizar oraciones con un orden de palabras inusual o cambios en la orientación espacial.

Los investigadores concluyen que el razonamiento deductivo representa un gran desafío para los LLM actuales. La aplicación correcta de las reglas aprendidas a menudo depende de la frecuencia con la que estas tareas aparezcan durante el proceso de entrenamiento. Aunque el uso de métodos de indicaciones como el pensamiento en cadena puede mejorar ligeramente la capacidad de razonamiento deductivo de los modelos, los resultados siguen siendo insatisfactorios. Cabe mencionar que el nuevo modelo o1 de OpenAI, recientemente lanzado, no participó en esta prueba.

Otro estudio, realizado por investigadores de la Universidad Estatal de Ohio y la Universidad Carnegie Mellon, examinó la capacidad de razonamiento lógico de los modelos Transformer. Investigaron si los modelos podían adquirir la capacidad de inferencia implícita a través del "grokking", especialmente en tareas de combinación y comparación.

Los resultados muestran que estos modelos pueden adquirir la capacidad de inferencia implícita después de un entrenamiento prolongado, pero solo en tareas de comparación pueden generalizar a ejemplos no vistos. Los investigadores señalan que esta diferencia está relacionada con la estructura interna de los circuitos aprendidos y sugieren ajustes en la arquitectura Transformer para lograr mejoras en experimentos futuros.

Puntos clave:

🌟 Los LLM muestran un excelente rendimiento en el razonamiento inductivo, con una precisión cercana al 100%.  

🧩 El razonamiento deductivo sigue siendo un desafío, especialmente en el manejo de tareas contrafactuales.  

🔍 Otro estudio muestra que los modelos Transformer pueden adquirir la capacidad de inferencia implícita en tareas de combinación, pero con una capacidad de generalización limitada.