Recentemente, um estudo realizado pela OpenAI revelou que, apesar do rápido desenvolvimento da inteligência artificial, os modelos de linguagem mais avançados atuais têm uma taxa de sucesso muito menor do que o esperado ao responder a perguntas factuais.
O estudo utilizou o benchmark SimpleQA da própria OpenAI, que contém 4.326 perguntas abrangendo várias áreas, como ciência, política e artes, cada uma com uma resposta correta definida.
Após verificação por dois revisores independentes, os resultados mostraram que o melhor modelo da OpenAI, o o1-preview, atingiu apenas 42,7% de precisão, enquanto o GPT-4o apresentou um resultado ligeiramente inferior, com 38,2%. Já o menor GPT-4o-mini obteve apenas 8,6% de precisão. Em comparação, o modelo Claude da Anthropic teve um desempenho ainda pior, com o Claude-3.5-sonnet alcançando apenas 28,9% de precisão.
O ponto crucial deste estudo reside no design do teste, que não visa apenas avaliar o desempenho da IA, mas também conscientizar sobre as limitações dos modelos de IA na aquisição de conhecimento. Os pesquisadores enfatizam que os usuários devem considerar esses modelos como ferramentas de processamento de informações, e não como fontes de conhecimento totalmente confiáveis. Para obter respostas mais precisas, é recomendável fornecer dados confiáveis à IA, em vez de depender apenas de seu conhecimento embutido.
É importante notar que os modelos de IA costumam superestimar suas próprias capacidades. Os pesquisadores descobriram que, quando solicitados a avaliar a confiança em suas respostas, esses modelos geralmente fornecem pontuações de precisão exageradas. Em testes de respostas repetidas à mesma pergunta, mesmo que o modelo forneça a mesma resposta várias vezes, sua taxa de sucesso real ainda é inferior à precisão autoavaliada. Isso coincide com as críticas externas sobre modelos de linguagem que frequentemente geram respostas absurdas, mas com grande confiança.
Os pesquisadores acreditam que os sistemas de IA atuais apresentam uma lacuna significativa em termos de precisão factual e precisam de melhorias. Além disso, eles levantam uma questão aberta: o desempenho da IA em responder a perguntas factuais curtas pode prever seu desempenho no tratamento de respostas mais longas e complexas? Para apoiar o desenvolvimento de modelos de linguagem mais confiáveis, a OpenAI já disponibilizou publicamente os dados do benchmark SimpleQA no Github.
Destaques:
📊 Um estudo da OpenAI mostra que os modelos de linguagem mais avançados têm baixa taxa de sucesso ao responder a perguntas factuais, atingindo no máximo 42,7%.
🤖 Esses modelos de IA frequentemente superestimam suas capacidades, com pontuações de confiança geralmente exageradas.
🔍 A OpenAI disponibilizou publicamente o benchmark SimpleQA para auxiliar na pesquisa de modelos de linguagem mais confiáveis.