De acordo com a revista Wired, várias gigantes da tecnologia, incluindo Apple, Nvidia, Anthropic e Salesforce, foram descobertas usando milhares de vídeos do YouTube sem permissão para treinar seus modelos de inteligência artificial, gerando uma séria controvérsia sobre direitos autorais e ética.

A reportagem revelou que essas empresas integraram legendas de diversos vídeos do YouTube em seus conjuntos de dados de treinamento de IA. Os criadores afetados abrangem uma ampla gama, incluindo os conhecidos blogueiros MKBHD, MrBeast, Jacksepticeye, os comediantes Stephen Colbert, John Oliver e Jimmy Kimmel, canais educativos como MIT, Khan Academy e Harvard, e veículos de comunicação tradicionais como o Wall Street Journal e a NPR.

Robô, Inteligência Artificial, Reconhecimento Facial, IA

Legenda da imagem: Imagem gerada por IA, fornecida pela Midjourney.

Esses dados foram, na verdade, baixados e organizados por uma organização sem fins lucrativos chamada Eleuther AI. A organização disponibilizou esses conteúdos como parte de seu grande conjunto de dados "The Pile", originalmente destinado a fornecer material de treinamento para pequenos desenvolvedores e acadêmicos. No entanto, esses conjuntos de dados foram posteriormente utilizados pelas grandes empresas de tecnologia.

É importante notar que empresas como a Apple não baixaram esses dados diretamente do YouTube, mas sim usaram o conjunto de dados organizado pela Eleuther AI. Do ponto de vista técnico, quem violou os termos de uso do YouTube foi a Eleuther AI, e não essas empresas de tecnologia.

Este incidente gerou debates sobre a legalidade e a ética da origem dos dados de treinamento de IA. Ele destaca a importância dos direitos autorais de dados e das licenças de uso no campo da IA em rápida evolução, bem como as deficiências das leis e regulamentos existentes para lidar com esses novos desafios tecnológicos. Ao mesmo tempo, isso traz novas reflexões sobre o equilíbrio de direitos entre criadores, plataformas e empresas de IA.