Modelos de linguagem grandes (LLMs), como o modelo GPT-4 usado na plataforma de bate-papo ChatGPT, já demonstraram capacidades surpreendentes, compreendendo prompts escritos e gerando respostas apropriadas em várias línguas. Isso levou alguns de nós a questionar: os textos e respostas gerados por esses modelos são tão realistas que podem ser confundidos com textos escritos por humanos?

image.png

Taxa de aprovação de cada tipo de testemunha (esquerda) e confiança do interrogador (direita).

Recentemente, pesquisadores da Universidade da Califórnia, San Diego, conduziram um estudo, uma espécie de Teste de Turing, para avaliar o grau em que as máquinas exibem inteligência semelhante à humana. Seus resultados descobriram que as pessoas têm dificuldade em distinguir entre conversas com o modelo GPT-4 e agentes humanos em diálogos individuais.

O artigo de pesquisa, publicado antecipadamente no servidor arXiv, mostrou que o GPT-4 foi confundido com um humano em aproximadamente 50% das interações. Embora os experimentos iniciais não controlassem totalmente algumas variáveis que poderiam afetar os resultados, eles decidiram conduzir um segundo experimento para obter resultados mais robustos.

image.png

Uma dessas quatro conversas foi com uma testemunha humana, as outras foram com inteligência artificial.

Em seu estudo, as pessoas tiveram dificuldade em determinar se o GPT-4 era humano. Em comparação com os modelos GPT-3.5 e ELIZA, as pessoas geralmente conseguiam identificar os últimos como máquinas, mas sua capacidade de identificar o GPT-4 como humano ou máquina não era melhor do que um palpite aleatório.

A equipe de pesquisa projetou um jogo online de dois jogadores chamado "Humano ou Não Humano", onde os participantes interagiam com outra pessoa ou um modelo de IA. Em cada jogo, um interrogador humano conversava com uma "testemunha" para tentar determinar se era humana.

Embora humanos reais tenham sido mais bem-sucedidos, convencendo os interrogadores de que eram humanos cerca de dois terços das vezes, os resultados do estudo sugerem que, no mundo real, as pessoas podem não ser capazes de determinar com segurança se estão conversando com um humano ou um sistema de IA.