Por trás do rápido desenvolvimento da inteligência artificial, algumas gigantes de tecnologia adotaram secretamente métodos bastante controversos. Não apenas "sugaram" dados de livros, sites, fotos e postagens de mídia social, mas também usaram em larga escala vídeos do YouTube para treinar seus modelos de IA, sem o conhecimento dos criadores.
Quem mexeu nos meus vídeos?
De acordo com uma investigação da Proof News, gigantes do Vale do Silício, incluindo Anthropic, Nvidia, Apple e Salesforce, usaram dados de legendas de 173.536 vídeos do YouTube para treinar sua IA. Esses vídeos são de mais de 48.000 canais, apesar do YouTube proibir explicitamente a coleta de material de sua plataforma sem autorização.
Esses conjuntos de dados, conhecidos como "Legendas do YouTube", incluem legendas de vídeos de canais educacionais e de aprendizagem online como Khan Academy, MIT e Harvard. Vídeos da Wall Street Journal, NPR e BBC também foram usados para treinar a IA, incluindo até mesmo programas como "The Late Show with Stephen Colbert", "Last Week Tonight with John Oliver" e "Jimmy Kimmel Live".
A Proof News também descobriu que vídeos de grandes youtubers, como MrBeast (289 milhões de inscritos, 2 vídeos usados no treinamento), Marques Brownlee (19 milhões de inscritos, 7 vídeos usados no treinamento), Jacksepticeye (quase 31 milhões de inscritos, 377 vídeos usados no treinamento) e PewDiePie (111 milhões de inscritos, 337 vídeos usados no treinamento), foram usados para treinar a IA. Alguns materiais usados para o treinamento da IA até mesmo propagavam teorias da conspiração, como a de que "a Terra é plana".
A fúria dos criadores
"Ninguém me disse: 'Nós queremos usar isso'", disse David Pakman, apresentador do "David Pakman Show". Seu canal tem mais de 2 milhões de inscritos e mais de 2 bilhões de visualizações, mas quase 160 vídeos foram incluídos no conjunto de dados de treinamento das "Legendas do YouTube".
A equipe de Pakman trabalha em tempo integral, publicando vários vídeos por dia, além de produzir podcasts, vídeos para o TikTok e conteúdo para outras plataformas. Se as empresas de IA pagassem por isso, Pakman afirma que deveria ser compensado pelo uso de seus dados. Ele observa que algumas empresas de mídia recentemente assinaram acordos para receber pagamento pelo uso de seus trabalhos para treinar IA.
Dave Wiskus, CEO da Nebula, foi ainda mais direto, afirmando: "Isso é roubo". A Nebula é um serviço de streaming parcialmente de propriedade de criadores, e alguns trabalhos de seus criadores foram retirados do YouTube para treinar IA.
A "mina de ouro" dos conjuntos de dados
As empresas de IA competem entre si pela aquisição de dados de maior qualidade, e essa é uma das razões pelas quais elas mantêm o sigilo sobre as fontes de dados. O New York Times relatou no início deste ano que o Google (dono do YouTube) também usou textos de vídeos da plataforma para treinar seus modelos. Em resposta, um porta-voz afirmou que o uso foi feito com o consentimento dos criadores do YouTube.
A investigação da Proof News também descobriu que a OpenAI usou vídeos do YouTube sem autorização. Representantes da empresa não confirmaram nem negaram essa descoberta.
Desafios legais e éticos
As "Legendas do YouTube" e outros tipos de dados de voz para texto são uma potencial "mina de ouro", pois podem ajudar a treinar modelos para replicar a maneira como as pessoas falam e conversam. No entanto, isso também levanta controvérsias sobre direitos autorais e ética. Muitos criadores temem que seus trabalhos sejam usados para treinar IA, o que poderia acabar substituindo seus empregos.
A Proof News tentou entrar em contato com os proprietários de todos os canais mencionados neste artigo. Muitos não responderam ao pedido de comentários. Nenhum dos criadores entrevistados estava ciente de que suas informações haviam sido retiradas, muito menos de como foram usadas.
A incerteza do futuro
Muitos criadores se sentem inseguros quanto ao futuro. YouTubers que trabalham em tempo integral patrulham regularmente em busca de usos não autorizados de seus trabalhos e enviam regularmente notificações de remoção. Alguns temem que a IA, mais cedo ou mais tarde, seja capaz de gerar conteúdo semelhante ao que eles produzem, ou mesmo copiá-lo diretamente.
Pakman, criador do "David Pakman Show", viu recentemente o poder da IA no TikTok. Ele encontrou um vídeo marcado como um clipe de Tucker Carlson, mas ficou chocado ao assisti-lo. Soava como Carlson, mas palavra por palavra era o que Pakman havia dito em seu programa no YouTube, até mesmo a entonação era a mesma. Ele ficou igualmente chocado ao ver que apenas um comentarista no vídeo parecia perceber que era falso - um clone de voz que imitava Carlson recitando o roteiro de Pakman.
"Isso vai ser um problema", disse Pakman em um vídeo do YouTube que ele fez sobre o vídeo falso. "Você pode fazer isso com praticamente qualquer pessoa."
Sid Black, co-fundador da EleutherAI, escreveu no GitHub que criou as "Legendas do YouTube" usando um script. O script baixa as legendas do YouTube da mesma forma que o navegador de um espectador do YouTube as baixa ao assistir a um vídeo. De acordo com a documentação do GitHub, Black usou 495 termos de busca para coletar vídeos, incluindo "youtubers engraçados", "Einstein", "negra protestante", "serviços sociais de proteção", "guerra de informações", "cromodinâmica quântica", "Ben Shapiro", "uigures", "fruitistas", "receita de bolo", "linhas de Nazca" e "a Terra é plana".
Embora os termos de serviço do YouTube proíbam o acesso a seus vídeos por meio de "meios automatizados", mais de 2.000 usuários do GitHub marcaram ou aprovaram o código.
"Se o YouTube quisesse impedir que este módulo funcionasse, há muitas maneiras de fazer isso", escreveu o engenheiro de aprendizado de máquina Jonas Depoix em uma discussão no GitHub, onde ele postou o código usado por Black para acessar as legendas do YouTube. "Até agora, isso não aconteceu."
Em um e-mail, Depoix disse à Proof News que não usou o código desde que o escreveu como um projeto de estudante há alguns anos e ficou surpreso ao ver que as pessoas o acharam útil. Ele se recusou a responder perguntas sobre as regras do YouTube.
Jack Malon, porta-voz do Google, respondeu a um pedido de comentários em um e-mail, dizendo que a empresa tomou "medidas para prevenir o uso indevido e a coleta não autorizada" ao longo dos anos. Ele não respondeu a perguntas sobre o uso desses materiais por outras empresas como dados de treinamento.
Entre os vídeos usados pelas empresas de IA estão 146 vídeos do "Einstein Parrot", canal com quase 150.000 inscritos. Marcia (que não quis revelar seu sobrenome por medo de colocar em risco a segurança do famoso papagaio), cuidadora do papagaio-cinzento-africano, inicialmente achou interessante que o modelo de IA absorvesse a fala imitativa do papagaio.
"Quem usaria a voz de um papagaio?", disse Marcia. "Mas depois, percebi que ele falava muito bem. Ele falava com minha voz. Então ele estava me imitando, e a IA estava imitando o papagaio."
Uma vez que os dados são absorvidos pela IA, não há como "esquecê-los". Marcia está preocupada com a possibilidade de as informações do papagaio serem usadas de maneiras desconhecidas, incluindo a criação de uma cópia digital do papagaio, e teme que ele possa ser programado para dizer palavrões.
"Estamos entrando em território desconhecido", disse Marcia.
Links de referência:
https://www.wired.com/story/youtube-training-data-apple-nvidia-anthropic/
https://arstechnica.com/ai/2024/07/apple-was-among-the-companies-that-trained-its-ai-on-youtube-videos/