Estudos recentes mostram que, apesar do excelente desempenho da inteligência artificial em áreas como programação e criação de conteúdo, ela ainda se mostra insuficiente no tratamento de problemas históricos complexos. Uma pesquisa divulgada recentemente na conferência NeurIPS indica que mesmo os modelos de linguagem grandes (LLMs) mais avançados têm dificuldades em obter resultados satisfatórios em testes de conhecimento histórico.
A equipe de pesquisa desenvolveu um teste de referência chamado Hist-LLM para avaliar três modelos de linguagem de ponta: GPT-4 da OpenAI, Llama da Meta e Gemini do Google. O teste foi baseado no banco de dados histórico global Seshat, e os resultados foram decepcionantes: o GPT-4 Turbo, o modelo com melhor desempenho, atingiu apenas 46% de precisão.
Observação da fonte: A imagem foi gerada por IA, com direitos de uso concedidos pela Midjourney.
Maria Del Rio-Chanona, professora associada do University College London, explica: "Esses modelos se saem bem em fatos históricos básicos, mas falham quando se trata de pesquisas históricas aprofundadas em nível de doutorado." A pesquisa descobriu que a IA frequentemente comete erros em detalhes, como errar ao determinar se certos períodos do antigo Egito possuíam ou não determinadas tecnologias militares ou um exército permanente.
Os pesquisadores acreditam que esse desempenho insatisfatório se deve à tendência dos modelos de IA de inferir a partir de narrativas históricas predominantes, dificultando a compreensão precisa de detalhes históricos mais sutis. Além disso, o estudo também descobriu que esses modelos têm um desempenho pior ao lidar com questões históricas de regiões da África Subsaariana, expondo possíveis vieses nos dados de treinamento.
Peter Turchin, chefe de pesquisa do Centro de Ciência da Complexidade (CSH), afirma que essa descoberta demonstra que, em algumas áreas especializadas, a IA ainda não pode substituir especialistas humanos. No entanto, a equipe de pesquisa ainda se mostra otimista quanto ao futuro da aplicação da IA na pesquisa histórica, e está aprimorando o teste de referência para ajudar a desenvolver modelos melhores.