Recentemente, uma equipe de pesquisa da Universidade de Princeton publicou um relatório de estudo interessante, indicando que, em agosto de 2024, aproximadamente 4,36% dos novos artigos na Wikipédia continham conteúdo gerado por IA significativo.
Este estudo foi conduzido por Creston Brooks, Samuel Eggert e Denis Peskoff, que utilizaram ferramentas chamadas GPTZero e Binoculars para detectar esse conteúdo gerado por IA.
O estudo mostra um aumento significativo no conteúdo gerado por IA em artigos da Wikipédia em 2024, em comparação com dados anteriores ao lançamento do GPT-3.5. De 2909 artigos da Wikipédia em inglês analisados, o GPTZero marcou 156, o Binoculars marcou 96, com 45 artigos marcados por ambas as ferramentas.
Os artigos marcados geralmente apresentavam baixa qualidade, poucas referências e integração deficiente na rede de conhecimento da Wikipédia. Alguns artigos pareciam autopromoção, envolvendo promoção pessoal ou comercial, muitas vezes com citações superficiais, como vídeos pessoais do YouTube.
No que diz respeito ao conteúdo político, oito artigos claramente promoviam pontos de vista específicos em tópicos controversos, como as guerras de edição sobre a história da Albânia. Além disso, alguns usuários usaram modelos de linguagem grandes (LLMs) para escrever sobre tópicos de nicho, incluindo fungos, culinária e esportes, e até mesmo resumos de livros capítulo a capítulo.
O estudo também comparou o conteúdo gerado por IA na Wikipédia com o do Reddit e comunicados de imprensa da ONU, descobrindo que o conteúdo gerado por IA no Reddit era muito menor que na Wikipédia, representando menos de 1%. Isso sugere que o conteúdo gerado por IA no Reddit é raro, sujeito a moderação ou difícil de detectar. Já os comunicados de imprensa da ONU com IA aumentaram significativamente, saltando de menos de 1% antes de 2022 para 20% em 2024.
O relatório conclui que, com o surgimento de LLMs generativos, as ferramentas de detecção de IA também estão em constante desenvolvimento. No entanto, ainda há desafios na avaliação desses detectores em diferentes contextos, como comprimento de texto, domínio e integração humano-máquina.
Para enfrentar os desafios do conteúdo gerado por IA, indivíduos, instituições de ensino, empresas e governos precisam buscar ativamente métodos confiáveis para verificar a autoria humana. Os órgãos reguladores também devem fortalecer a gestão do conteúdo gerado por IA. Por exemplo, a China já está tomando medidas para aumentar a transparência das informações geradas por IA na internet, publicando projetos de regulamentos. A Índia também lançou recomendações este ano para a marcação de conteúdo relacionado à IA, embora essa proposta tenha gerado controvérsias e críticas.
Destaques:
📊 O estudo mostra que cerca de 4,36% dos novos artigos da Wikipédia são gerados por IA.
🔍 O conteúdo gerado por IA no Reddit é inferior a 1%, mostrando uma diferença significativa.
🌐 Vários países estão explorando medidas regulatórias e requisitos de rotulagem para conteúdo gerado por IA.