Recentemente, pesquisadores da UCLA e da Amazon realizaram uma análise aprofundada da capacidade de raciocínio de grandes modelos de linguagem (LLMs). Pela primeira vez, eles sistematicamente diferenciaram a capacidade de raciocínio indutivo e dedutivo, explorando os desafios que ambos representam para os sistemas de IA.
Nota da fonte: A imagem foi gerada por IA, fornecida pela Midjourney.
O raciocínio indutivo envolve a dedução de leis gerais a partir de observações específicas, enquanto o raciocínio dedutivo aplica regras gerais a casos específicos. O objetivo do estudo era entender qual capacidade de raciocínio representa um desafio maior para os grandes modelos de linguagem. Para isso, a equipe de pesquisa desenvolveu um novo método chamado "SolverLearner". Este método permite que o modelo aprenda uma função através de poucos exemplos, mapeando a entrada para a saída. Em seguida, um programa externo usa essa função, evitando assim a confusão com o raciocínio dedutivo.
Os resultados da pesquisa mostraram que LLMs como o GPT-4 se saíram excepcionalmente bem no raciocínio indutivo, atingindo uma precisão próxima de 100% usando o método "SolverLearner". No entanto, no raciocínio dedutivo, especialmente em tarefas "contrafactuais", os modelos se mostraram menos eficazes. Por exemplo, os modelos tiveram um bom desempenho em tarefas aritméticas decimais, mas encontraram dificuldades em cálculos em outros sistemas numéricos. Além disso, os modelos mostraram-se pouco flexíveis na análise de frases com ordem de palavras incomum ou mudanças na orientação espacial.
Os pesquisadores concluíram que o raciocínio dedutivo representa um grande desafio para os LLMs atuais. A aplicação correta das regras aprendidas frequentemente depende da frequência com que essas tarefas aparecem durante o processo de treinamento. Embora métodos de prompt como o "chain of thought" possam melhorar ligeiramente a capacidade de raciocínio dedutivo dos modelos, os resultados ainda são insatisfatórios. Vale mencionar que o novo modelo o1 da OpenAI, recentemente lançado, não participou deste teste.
Outro estudo, conduzido por pesquisadores da Ohio State University e da Carnegie Mellon University, investigou a capacidade de raciocínio lógico dos modelos Transformer. Eles pesquisaram se os modelos podem adquirir a capacidade de inferência implícita através do "grokking", especialmente em tarefas de combinação e comparação.
Os resultados mostraram que esses modelos podem, de fato, adquirir a capacidade de inferência implícita após um longo treinamento, mas apenas em tarefas de comparação eles conseguem generalizar para exemplos não vistos. Os pesquisadores apontaram que essa diferença está relacionada à estrutura interna dos circuitos aprendidos e sugeriram ajustes na arquitetura Transformer na esperança de melhorar a qualidade em experimentos futuros.
Destaques:
🌟 Os LLMs têm um desempenho excelente em raciocínio indutivo, com precisão próxima de 100%.
🧩 O raciocínio dedutivo ainda é um desafio, especialmente no tratamento de tarefas contrafactuais.
🔍 Outro estudo mostra que os modelos Transformer podem adquirir a capacidade de inferência implícita em tarefas de combinação, mas com capacidade de generalização limitada.