Recentemente, o The New York Times e o Daily News entraram com uma ação conjunta contra a OpenAI, alegando que a empresa usou suas obras para treinar modelos de inteligência artificial sem autorização.
O desenvolvimento do caso chamou a atenção do público, pois a equipe jurídica dos autores apontou em documentos judiciais recentes que engenheiros da OpenAI acidentalmente excluíram evidências que poderiam ser importantes para o caso ao lidar com os dados relevantes.
Segundo informações, a OpenAI concordou no outono passado em fornecer duas máquinas virtuais para que a equipe jurídica dos autores pudesse pesquisar seus dados de treinamento em busca de conteúdo com direitos autorais. Uma máquina virtual é um computador virtual que roda dentro de um sistema operacional de computador, comumente usado para testes, backup de dados e execução de aplicativos. Desde 1º de novembro, os assessores jurídicos do New York Times e do Daily News e seus especialistas contratados trabalharam por mais de 150 horas nos dados de treinamento da OpenAI.
No entanto, em 14 de novembro, engenheiros da OpenAI acidentalmente limparam os dados de pesquisa armazenados em uma das máquinas virtuais. De acordo com a carta dos advogados dos autores, embora a OpenAI tenha tentado recuperar os dados perdidos e tenha tido sucesso na maioria dos casos, os dados recuperados não puderam ser usados para determinar como os artigos dos autores das notícias foram usados para treinar o modelo da OpenAI, devido à "irrecuperabilidade" da estrutura de pastas e nomes de arquivos.
Os assessores jurídicos dos autores afirmaram que não acreditam que a exclusão tenha sido intencional, mas o incidente mostra que a OpenAI "está na melhor posição para procurar conteúdo potencialmente infrator em seu próprio conjunto de dados". Isso significa que a OpenAI deveria usar suas próprias ferramentas para encontrar conteúdo infrator relevante de forma mais eficaz.
Em relação a este e outros casos semelhantes, a OpenAI sempre argumentou que o uso de dados publicamente disponíveis para treinamento de modelos constitui uso justo ("fair use"). Isso significa que a OpenAI acredita que não precisa pagar royalties pelo uso desses exemplos, embora lucra com esses modelos.
Vale mencionar que a OpenAI assinou acordos de licenciamento com um número crescente de novas mídias, incluindo Associated Press, Business Insider, Financial Times, etc., mas a OpenAI não divulgou os termos específicos desses acordos. Diz-se que o parceiro de conteúdo Dotdash recebe pelo menos US$ 16 milhões por ano.
Apesar da controvérsia legal, a OpenAI não confirmou nem negou o uso de obras específicas com direitos autorais para treinamento de IA sem permissão.
Destaques:
🌐 A OpenAI é acusada de excluir acidentalmente evidências potencialmente importantes em um processo de direitos autorais.
🕒 Os advogados dos autores afirmam que gastaram muito tempo e recursos para recuperar os dados.
💼 A OpenAI insiste que o uso de dados públicos para treinar seus modelos constitui uso justo.