Recentemente, um simples problema de matemática — "Qual é maior, 13,8 ou 13,11?" — não apenas confundiu alguns humanos, mas também deixou muitos modelos de linguagem grandes (LLMs) em apuros. Este problema gerou uma ampla discussão sobre a capacidade da IA de lidar com problemas de conhecimento de senso comum.
Em um famoso programa de variedades, essa questão gerou debates acalorados entre os internautas. Muitos acreditavam que 13,11% deveria ser maior que 13,8%, mas, na verdade, 13,8% é maior.
Lin Yuchen, pesquisador da AI2, descobriu que mesmo modelos de linguagem grandes, como o GPT-4o, cometem erros nesse simples problema de comparação. O GPT-4o errou ao afirmar que 13,11 é maior que 13,8 e deu uma explicação incorreta.
A descoberta de Lin Yuchen rapidamente gerou discussões acaloradas na comunidade de IA. Muitos outros modelos de linguagem grandes, como Gemini, Claude 3.5 e Sonnet, também cometeram o mesmo erro nesse simples problema de comparação.
A ocorrência desse problema revela as dificuldades que a IA pode encontrar ao lidar com tarefas aparentemente simples, mas que envolvem comparações numéricas precisas.
Apesar dos avanços significativos da inteligência artificial em muitas áreas, como compreensão da linguagem natural, reconhecimento de imagens e tomada de decisões complexas, ela ainda pode cometer erros em operações matemáticas básicas e raciocínio lógico, mostrando as limitações da tecnologia atual.
Por que a IA comete esses erros?
Viés nos dados de treinamento: Os dados de treinamento dos modelos de IA podem não conter exemplos suficientes para lidar corretamente com esse tipo específico de problema de comparação numérica. Se os dados aos quais o modelo foi exposto durante o treinamento mostram principalmente que números maiores sempre têm mais casas decimais, ele pode erroneamente interpretar mais casas decimais como um valor maior.
Problemas de precisão de ponto flutuante: Na ciência da computação, a representação e o cálculo de números de ponto flutuante envolvem problemas de precisão. Mesmo pequenas diferenças podem causar resultados incorretos na comparação, especialmente quando a precisão não é especificada claramente.
Compreensão de contexto insuficiente: Embora a clareza do contexto possa não ser o problema principal neste caso, os modelos de IA geralmente precisam depender do contexto para interpretar corretamente as informações. Se a formulação da pergunta não for clara o suficiente ou não corresponder aos padrões comuns nos dados de treinamento da IA, isso pode levar a mal-entendidos.
Influência do design do prompt: A maneira como uma pergunta é feita à IA é crucial para obter uma resposta correta. Diferentes maneiras de formular a pergunta podem afetar o nível de compreensão da IA e a precisão da resposta.
Como melhorar?
Melhorar os dados de treinamento: Ao fornecer dados de treinamento mais diversos e precisos, os modelos de IA podem entender melhor as comparações numéricas e outros conceitos matemáticos básicos.
Otimizar o design do prompt: Uma formulação cuidadosa da pergunta pode aumentar as chances de a IA fornecer a resposta correta. Por exemplo, o uso de representações numéricas e formulações de perguntas mais claras pode reduzir ambiguidades.
Aumentar a precisão do processamento numérico: Desenvolver e adotar algoritmos e técnicas que processem operações de ponto flutuante com maior precisão para reduzir erros de cálculo.
Melhorar a capacidade de raciocínio lógico e de senso comum: Ao treinar especificamente o raciocínio lógico e de senso comum, a IA pode melhorar suas habilidades nessas áreas, permitindo-lhe entender e lidar melhor com tarefas relacionadas ao senso comum.