Pesquisadores das universidades de Princeton e Yale publicaram recentemente um relatório sobre a capacidade de raciocínio "Chain of Thought (CoT)" de modelos de linguagem grandes (LLMs), revelando os segredos do raciocínio CoT: não se baseia puramente em raciocínio simbólico baseado em regras lógicas, mas sim em uma fusão de memória, probabilidade e raciocínio ruidoso.
Os pesquisadores usaram a quebra de cifras de César como tarefa de teste, analisando o desempenho de três LLMs: GPT-4, Claude3 e Llama3.1. A cifra de César é um método de codificação simples em que cada letra é substituída pela letra que está um número fixo de posições à frente no alfabeto. Por exemplo, movendo o alfabeto três posições para frente, "CAT" se torna "FDW".
Os resultados da pesquisa indicam que três fatores-chave influenciam a eficácia do raciocínio CoT:
Probabilidade: LLMs tendem a gerar saídas com maior probabilidade, mesmo que as etapas de raciocínio apontem para uma resposta com menor probabilidade. Por exemplo, se as etapas de raciocínio apontam para "STAZ", mas "STAY" é uma palavra mais comum, o LLM pode se "autocorrigir" e gerar "STAY".
Memória: LLMs memorizam uma grande quantidade de dados de texto durante o pré-treinamento, o que afeta a precisão de seu raciocínio CoT. Por exemplo, rot-13 é a cifra de César mais comum, e LLMs têm uma precisão significativamente maior em rot-13 do que em outros tipos de cifras de César.
Raciocínio ruidoso: O processo de raciocínio do LLM não é totalmente preciso, mas contém um certo grau de ruído. À medida que o deslocamento da cifra de César aumenta, o número de etapas intermediárias necessárias para a decodificação também aumenta, e o impacto do raciocínio ruidoso se torna mais evidente, levando a uma queda na precisão do LLM.
Os pesquisadores também descobriram que o raciocínio CoT do LLM depende do autocondicionamento, ou seja, o LLM precisa gerar explicitamente texto como contexto para etapas subsequentes de raciocínio. Se o LLM for instruído a "pensar silenciosamente" sem gerar nenhum texto, sua capacidade de raciocínio diminui drasticamente. Além disso, a eficácia das etapas de demonstração não tem grande impacto no raciocínio CoT; mesmo que as etapas de demonstração contenham erros, o resultado do raciocínio CoT do LLM pode permanecer estável.
Esta pesquisa mostra que o raciocínio CoT do LLM não é um raciocínio simbólico perfeito, mas sim uma fusão de vários fatores, incluindo memória, probabilidade e raciocínio ruidoso. O LLM demonstra características de um mestre da memória e de um especialista em probabilidade durante o raciocínio CoT. Esta pesquisa ajuda-nos a compreender melhor a capacidade de raciocínio do LLM e fornece insights valiosos para o desenvolvimento futuro de sistemas de IA mais poderosos.
Endereço do artigo: https://arxiv.org/pdf/2407.01687