Em 1950, um brilhante indivíduo chamado Alan Turing idealizou um método engenhoso para testar a inteligência de uma máquina: o famoso Teste de Turing. Simplificando, se uma máquina consegue se passar por humana em uma conversa textual, enganando os avaliadores, ela passa no teste e é considerada inteligente.
Contudo, com o avanço da tecnologia, surge uma nova questão: se não interagirmos diretamente com a IA, mas sim lermos o registro textual de uma conversa entre uma IA e outras pessoas, ainda seremos capazes de identificar com precisão quem é humano e quem é máquina?
Recentemente, um grupo de cientistas da Universidade da Califórnia, San Diego, investigou profundamente essa questão. Eles desenvolveram versões modificadas do Teste de Turing, denominadas "Teste de Turing Invertido" e "Teste de Turing Deslocado", para explorar esse problema.
Legenda da imagem: Imagem gerada por IA, serviço de licenciamento de imagens Midjourney
No Teste de Turing Invertido, a IA deixa de ser a avaliada e passa a ser a juíza. Os cientistas fizeram com que os modelos de linguagem de grande porte GPT-3.5 e GPT-4 lessem registros de conversas entre humanos e IAs, e então julgassem se os participantes eram humanos ou IAs.
Os resultados foram surpreendentes: a precisão dos juízes de IA foi inferior à dos juízes humanos que participaram diretamente da conversa, e em muitos casos, eles erroneamente classificaram IAs como humanas. Especificamente para o modelo GPT-4, que apresentou o melhor desempenho, a frequência com que os juízes de IA o classificaram como humano foi maior do que a dos participantes humanos reais.
Os cientistas também conduziram o Teste de Turing Deslocado, onde juízes humanos leram os registros de conversas entre IAs e humanos. Os resultados mostraram que, mesmo para os juízes humanos, a precisão de julgamento nesse cenário foi inferior à dos juízes humanos que participaram diretamente da conversa.
Essas descobertas revelam que, tanto humanos quanto IAs, sem interação direta, têm dificuldades em distinguir com precisão entre humanos e máquinas. Isso tem implicações significativas para nossas interações online diárias, pois frequentemente conhecemos as pessoas lendo suas conversas.
Isso também significa que, se dependermos de IAs para detectar informações falsas na internet ou IAs se passando por humanos, precisaremos de ferramentas mais precisas. Afinal, os modelos de IA atuais não são melhores que os humanos nessa tarefa.
Esta pesquisa não apenas aprofunda nossa compreensão da IA, mas também revela um desafio importante no desenvolvimento da IA: como projetar ferramentas melhores para detectar e distinguir conteúdo gerado por IA de conteúdo gerado por humanos.
À medida que a tecnologia de IA avança, essa questão se tornará cada vez mais importante. Precisamos garantir que, ao desfrutarmos das conveniências da IA, também possamos proteger a segurança de nossos dados e a autenticidade de nosso ambiente online.
Link do artigo: https://arxiv.org/pdf/2407.08853