No mundo da inteligência artificial, a capacidade de raciocínio de modelos de aprendizado de máquina, especialmente os grandes modelos de linguagem (LLMs), tem sido um foco de atenção dos cientistas.

Recentemente, a equipe de pesquisa de IA da Apple publicou um artigo intitulado "Compreendendo as limitações dos grandes modelos de linguagem no raciocínio matemático", revelando as limitações desses modelos ao lidar com problemas lógicos.

image.png

No artigo, os pesquisadores demonstram isso por meio de um problema matemático simples. Eles apresentam um problema sobre Oliver colhendo kiwis:

Como mostrado abaixo:

Oliver colheu 44 kiwis na sexta-feira. No sábado, ele colheu mais 58 kiwis. No domingo, ele colheu o dobro da quantidade de kiwis que colheu na sexta-feira. Quantos kiwis Oliver colheu no total?

Obviamente, a resposta é 44 + 58 + (44 * 2) = 190. Embora os grandes modelos de linguagem não sejam perfeitos em aritmética, eles podem resolver problemas como esse com bastante confiabilidade.

Mas se você adicionar algumas informações irrelevantes para observar a reação do modelo, como:

Oliver colheu 44 kiwis na sexta-feira. No sábado, ele colheu mais 58. No domingo, ele colheu o dobro da quantidade de kiwis que colheu na sexta-feira, mas 5 deles eram um pouco menores que o tamanho médio. Quantos kiwis Oliver colheu?

Embora isso não altere a essência matemática do problema, mesmo os LLMs mais avançados fornecem respostas incorretas com essa pequena interferência. Por exemplo, o GPT-o1-mini incorretamente subtraiu os 5 kiwis menores do total de kiwis colhidos no domingo.

2.jpg

Este experimento mostra que, embora os LLMs consigam fornecer respostas corretas em alguns casos, eles não compreendem realmente a essência do problema.

Os pesquisadores argumentam que os padrões de falha desses modelos indicam que eles não realizam um raciocínio lógico verdadeiro, mas sim replicam os passos de raciocínio que observaram nos dados de treinamento. É como se um LLM pudesse calcular que "eu te amo" geralmente é seguido por "eu também te amo", mas isso não significa que ele realmente compreenda o significado do amor.

image.png

Um dos co-autores do artigo, Mehrdad Farajtabar, explicou ainda mais essa descoberta nas redes sociais. Ele apontou que, embora a engenharia de prompts melhor possa melhorar o desempenho do modelo em alguns casos simples, para interferências complexas, o modelo pode precisar de mais dados de contexto para processar corretamente, enquanto essas interferências podem não ser um problema para uma criança.

Esta pesquisa nos lembra que, embora os LLMs apresentem um desempenho excelente no processamento de linguagem, sua capacidade de raciocínio lógico ainda é limitada. Isso não é apenas um problema acadêmico; à medida que a tecnologia de IA se torna cada vez mais parte do nosso dia a dia, as respostas a essas questões se tornam cada vez mais importantes.

Não podemos simplesmente assumir que a IA consegue entender e executar tarefas complexas, mas sim devemos entender melhor seu funcionamento e suas limitações. Esta pesquisa nos fornece uma compreensão mais profunda da tecnologia de IA, e também nos oferece insights valiosos sobre como usar e desenvolver essas tecnologias.

Referências: https://techcrunch.com/2024/10/11/researchers-question-ais-reasoning-ability-as-models-stumble-on-math-problems-with-trivial-changes/