O Meta está enfrentando um processo por violação de direitos autorais. Os advogados do autor alegam que o CEO do Meta, Mark Zuckerberg, aprovou o uso de um conjunto de dados de livros eletrônicos e artigos piratas para treinar seu modelo de IA Llama. Este caso é um dos muitos processos por direitos autorais contra várias gigantes de tecnologia, acusadas de usar obras protegidas por direitos autorais sem autorização para treinar modelos de IA.
Em documentos apresentados na noite de quarta-feira ao Tribunal Distrital dos Estados Unidos para o Distrito Norte da Califórnia, os autores reiteraram o depoimento do Meta do final do ano passado, que revelou que Zuckerberg aprovou o uso de um conjunto de dados chamado LibGen para treinamento relacionado ao Llama. O LibGen é considerado um "agregador de links" que fornece uma grande quantidade de publicações acadêmicas protegidas por direitos autorais. Apesar de ter sido processado e fechado várias vezes por violação de direitos autorais, ele continua fornecendo obras de grandes editoras como Cengage Learning e McGraw Hill.
Observação da fonte: Imagem gerada por IA, provedor de licenças de imagens Midjourney
Os documentos mencionam que funcionários internos do Meta admitiram que o LibGen é um "conjunto de dados que sabemos ser pirata" e que seu uso pode afetar negativamente a posição de negociação da empresa com os reguladores. É particularmente preocupante que o engenheiro do Meta, Nikolay Bashlykov, seja acusado de escrever um script para remover informações de direitos autorais de livros eletrônicos do LibGen, incluindo as palavras "copyright" e "agradecimentos". O Meta também teria removido marcas de direitos autorais e metadados de origem de artigos de periódicos científicos para encobrir sua violação.
Ainda mais controverso é que o Meta é acusado de baixar conteúdo do LibGen por meio de torrenting e de ajudar a distribuir esses arquivos com direitos autorais roubados. O torrenting é uma forma de distribuir arquivos na internet em que os downloaders compartilham o conteúdo enquanto o baixam simultaneamente. Os advogados do autor argumentam que, ao participar do torrenting, o Meta cometeu outra forma de violação de direitos autorais. Embora os engenheiros do Meta tenham expressado reservas, considerando essa ação ilegal, o Meta continuou com essa prática com o apoio do chefe de IA generativa, Ahmad Al-Dahle.
Essas acusações parecem corresponder a uma reportagem do New York Times de abril do ano passado, que sugeriu que o Meta adotou atalhos na coleta de dados de IA. Segundo relatos, o Meta contratou empreiteiros africanos para resumir livros e considerou adquirir a editora Simon & Schuster. No entanto, executivos do Meta consideraram que negociar licenças de direitos autorais levaria muito tempo, e o princípio do uso justo tornou-se sua principal defesa.
Atualmente, o julgamento ainda não foi concluído e envolve apenas os modelos Llama iniciais do Meta. Embora o tribunal tenha rejeitado várias ações judiciais relacionadas à IA em 2023, alegando que os autores não conseguiram provar a violação, as acusações neste caso ainda podem ter um impacto negativo no Meta. O juiz presidente, Vince Chhabria, em uma ordem de quarta-feira, observou que ele rejeitou o pedido do Meta para remover a maior parte dos documentos, afirmando que a remoção era claramente para evitar publicidade negativa, e não para proteger informações comerciais sensíveis.
Este caso continuará a gerar discussões sobre como as empresas de tecnologia usam obras protegidas por direitos autorais para treinar modelos de IA, especialmente em relação à linha tênue entre uso justo e proteção de direitos autorais.