Recentemente, um estudo liderado pelo Instituto de Ciência Complexa da Áustria (CSH) mostrou que, apesar do excelente desempenho de grandes modelos de linguagem (LLMs) em várias tarefas, eles apresentam deficiências ao lidar com questões históricas avançadas. A equipe de pesquisa testou três modelos top de linha: GPT-4 da OpenAI, Llama da Meta e Gemini do Google, e os resultados foram decepcionantes.

Competição de robôs: Respondendo perguntas de matemática

Observação da imagem: Imagem gerada por IA, fornecida pelo serviço de licenciamento de imagens Midjourney

Para avaliar o desempenho desses modelos em conhecimento histórico, os pesquisadores desenvolveram uma ferramenta de benchmark chamada "Hist-LLM". Essa ferramenta, baseada no banco de dados histórico global Seshat, visa verificar a precisão das respostas de IA a perguntas históricas. Os resultados da pesquisa, publicados na renomada conferência de inteligência artificial NeurIPS, mostram que a precisão do GPT-4Turbo, o modelo de melhor desempenho, foi de apenas 46%. Esse resultado indica um desempenho pouco melhor do que um palpite aleatório.

Maria del Rio-Chanona, professora associada de Ciência da Computação do University College London, afirma: "Embora os grandes modelos de linguagem sejam impressionantes, sua compreensão profunda de conhecimentos históricos avançados ainda é insuficiente. Eles são bons em lidar com fatos simples, mas se mostram impotentes ao lidar com questões históricas mais complexas." Por exemplo, quando questionado sobre a existência de armaduras de escamas em um período específico do antigo Egito, o GPT-4Turbo respondeu incorretamente "sim", enquanto na realidade essa tecnologia só surgiu 1500 anos depois. Além disso, quando os pesquisadores perguntaram se o antigo Egito possuía um exército profissional permanente, o GPT-4 também respondeu incorretamente "sim", enquanto a resposta correta é não.

O estudo também revelou que os modelos têm um desempenho pior ao lidar com questões de certas regiões (como a África Subsaariana), sugerindo um possível viés em seus dados de treinamento. Peter Turchin, líder da pesquisa, aponta que esses resultados refletem que, em algumas áreas, os LLMs ainda não conseguem substituir os humanos.

Destaques:

- 📉 O GPT-4Turbo teve um desempenho ruim em um teste de história avançada, com apenas 46% de precisão.

- 📚 O estudo mostra que os grandes modelos de linguagem ainda apresentam deficiência na compreensão de conhecimentos históricos complexos.

- 🌍 A equipe de pesquisa espera melhorar a ferramenta de teste para aumentar o potencial de aplicação dos modelos em pesquisas históricas.