Recentemente, pesquisadores da Apple conduziram um estudo aprofundado sobre a capacidade de raciocínio matemático de modelos de linguagem grandes (LLMs), lançando um novo benchmark chamado GSM-Symbolic.

Este novo benchmark foi desenvolvido com base no GSM8K, que se concentra na avaliação de habilidades matemáticas básicas. Embora muitos LLMs tenham demonstrado melhorias no GSM8K, a comunidade científica ainda questiona a capacidade de raciocínio desses modelos, sugerindo que as métricas de avaliação existentes podem não refletir totalmente suas capacidades reais. A pesquisa descobriu que os LLMs geralmente se baseiam em correspondência de padrões probabilísticos, em vez de raciocínio lógico verdadeiro, tornando-os muito sensíveis a pequenas mudanças na entrada.

image.png

Neste novo estudo, os pesquisadores usaram modelos simbólicos para gerar problemas matemáticos diversos, fornecendo assim uma avaliação mais confiável. Os resultados experimentais mostraram que, quando o valor numérico ou a complexidade dos problemas aumentam, o desempenho dos LLMs diminui significativamente. Além disso, mesmo adicionar informações superficialmente relevantes, mas na verdade irrelevantes, pode levar a uma queda de até 65% no desempenho do modelo. Esses resultados reforçam a ideia de que os LLMs, ao raciocinar, dependem mais da correspondência de padrões do que do raciocínio lógico formal.

O conjunto de dados GSM8K contém mais de 8.000 problemas matemáticos adequados para o nível escolar, e sua popularidade gerou alguns riscos, como contaminação de dados e flutuações de desempenho devido a pequenas mudanças nos problemas. Para enfrentar esses desafios, o GSM-Symbolic surgiu para controlar eficazmente a diversidade dos problemas. Este benchmark avaliou mais de 20 modelos abertos e fechados, usando 5.000 amostras de 100 modelos, revelando insights profundos e limitações na capacidade de raciocínio matemático dos LLMs.

Experimentos preliminares mostraram que a diferença de desempenho entre os modelos no GSM-Symbolic é significativa, com uma precisão geral inferior à relatada no GSM8K. A pesquisa explorou ainda mais o impacto da alteração dos nomes das variáveis e dos valores numéricos nos LLMs, mostrando que as mudanças numéricas têm um impacto maior no desempenho. Além disso, a complexidade do problema também afeta diretamente a precisão, com problemas complexos levando a uma queda significativa no desempenho. Esses resultados sugerem que os modelos podem depender mais da correspondência de padrões do que da verdadeira capacidade de raciocínio ao lidar com problemas matemáticos.

Este estudo destaca as limitações da avaliação atual do GSM8K e apresenta o novo benchmark GSM-Symbolic, projetado para avaliar a capacidade de raciocínio matemático dos LLMs. Em geral, os resultados da pesquisa indicam que os LLMs ainda precisam melhorar sua capacidade de raciocínio lógico ao lidar com problemas complexos.

Artigo: https://arxiv.org/abs/2410.05229

Destaques:

🧮 Os pesquisadores lançam o novo benchmark GSM-Symbolic para avaliar a capacidade de raciocínio matemático dos LLMs.

📉 Os LLMs apresentam desempenho inferior ao lidar com problemas matemáticos complexos, dependendo da correspondência de padrões em vez do raciocínio lógico.

📊 A pesquisa revela diferenças significativas de desempenho entre os modelos no novo benchmark, apelando por uma melhoria nos métodos de avaliação.