Investigadores de la Universidad de Princeton y la Universidad de Yale publicaron recientemente un informe sobre la capacidad de razonamiento de "cadena de pensamiento" (CoT) de los grandes modelos lingüísticos (LLM), revelando el misterio de la inferencia CoT: no se basa puramente en el razonamiento simbólico basado en reglas lógicas, sino que fusiona varios factores como la memoria, la probabilidad y el razonamiento ruidoso.
Los investigadores utilizaron la decodificación de cifrados César como tarea de prueba, analizando el rendimiento de tres LLM: GPT-4, Claude3 y Llama3.1. El cifrado César es un método de codificación simple donde cada letra se reemplaza por la letra que se encuentra un número fijo de posiciones más adelante en el alfabeto. Por ejemplo, desplazando el alfabeto 3 posiciones, "CAT" se convierte en "FDW".
Los resultados de la investigación muestran que los tres factores clave que influyen en la efectividad de la inferencia CoT son:
Probabilidad: Los LLM tienden a generar salidas con mayor probabilidad, incluso si los pasos de razonamiento apuntan a una respuesta con menor probabilidad. Por ejemplo, si los pasos de razonamiento apuntan a "STAZ", pero "STAY" es una palabra más común, el LLM puede "autocorregirse" y generar "STAY".
Memoria: Los LLM memorizan una gran cantidad de datos de texto durante el preentrenamiento, lo que afecta la precisión de su razonamiento CoT. Por ejemplo, rot-13 es el cifrado César más común, y los LLM muestran una precisión significativamente mayor en rot-13 que en otros tipos de cifrados César.
Razonamiento ruidoso: El proceso de razonamiento del LLM no es completamente preciso, sino que presenta cierto grado de ruido. A medida que aumenta la cantidad de desplazamiento en el cifrado César, también aumentan los pasos intermedios necesarios para la decodificación, y la influencia del razonamiento ruidoso se hace más evidente, lo que provoca una disminución en la precisión del LLM.
Los investigadores también descubrieron que la inferencia CoT de los LLM depende del autoacondicionamiento, es decir, los LLM necesitan generar texto explícitamente como contexto para los pasos de razonamiento posteriores. Si se indica a los LLM que "piensen en silencio" sin generar ningún texto, su capacidad de razonamiento disminuye considerablemente. Además, la efectividad de los pasos de demostración no tiene un gran impacto en la inferencia CoT; incluso si los pasos de demostración son incorrectos, la efectividad de la inferencia CoT del LLM puede mantenerse estable.
Este estudio demuestra que la inferencia CoT de los LLM no es un razonamiento simbólico perfecto, sino una fusión de varios factores como la memoria, la probabilidad y el razonamiento ruidoso. Los LLM muestran tanto las características de un maestro de la memoria como las de un experto en probabilidad durante la inferencia CoT. Esta investigación ayuda a comprender mejor la capacidad de razonamiento de los LLM y proporciona información valiosa para el desarrollo futuro de sistemas de IA más potentes.
Enlace del artículo: https://arxiv.org/pdf/2407.01687