A Universidade de Harvard anunciou na quinta-feira que tornará público um conjunto de dados de alta qualidade contendo quase um milhão de livros de domínio público, que qualquer pessoa poderá usar para treinar grandes modelos de linguagem e outras ferramentas de IA. Este conjunto de dados foi criado pela recém-criada Iniciativa de Dados Institucionais (IDI) de Harvard e recebeu financiamento da Microsoft e da OpenAI. Os livros incluídos são obras de domínio público digitalizadas pelo Projeto Google Livros.

O conjunto de dados tem aproximadamente cinco vezes o tamanho do infame conjunto de dados Books3 usado para treinar modelos de IA como o Meta Llama. Ele abrange uma variedade de gêneros, épocas e idiomas, incluindo clássicos de Shakespeare, Charles Dickens e Dante, bem como livros didáticos de matemática tchecos pouco conhecidos e dicionários de bolso em galês. Greg Leppert, diretor executivo da Iniciativa de Dados Institucionais, disse que o objetivo do projeto é "criar um campo de jogo nivelado" dando ao público, incluindo pequenos participantes da indústria de IA e pesquisadores individuais, acesso a um repositório de conteúdo altamente refinado e curado que normalmente só está disponível para gigantes tecnológicos estabelecidos. Ele disse: "Ele passou por um rigoroso processo de revisão".

Biblioteca, sala de leitura (2)

Observação da fonte: Imagem gerada por IA, fornecida pela Midjourney.

Leppert acredita que o novo banco de dados de domínio público pode ser usado em conjunto com outros materiais licenciados para construir modelos de IA. Ele disse: "Eu acho que é um pouco como o Linux se tornou o sistema operacional básico em muitas áreas do mundo". Ele observou que as empresas ainda precisarão usar dados de treinamento adicionais para diferenciar seus modelos dos modelos de seus concorrentes.

Burton Davis, vice-presidente e conselheiro jurídico da Microsoft, enfatizou que o apoio da empresa ao projeto está em linha com sua crença mais ampla no valor de criar "pools de dados acessíveis" para startups de IA que são "orientadas para o bem público". Em outras palavras, a Microsoft não planeja necessariamente substituir todos os dados de treinamento de IA usados ​​em seus próprios modelos por alternativas de domínio público, como os livros no novo banco de dados de Harvard. "Usamos dados publicamente disponíveis para treinar nossos modelos", disse Davis.

Com dezenas de processos sobre o uso de dados protegidos por direitos autorais para treinar IA em andamento nos tribunais, o futuro de como as ferramentas de IA serão construídas está em aberto. Se as empresas de IA vencerem, elas poderão continuar a raspar a internet sem precisar assinar contratos de licença com os detentores de direitos autorais. Mas se perderem, as empresas de IA podem ser forçadas a reformular completamente como seus modelos são feitos. Projetos como o banco de dados de Harvard estão avançando em um ritmo sem precedentes, assumindo – aconteça o que acontecer – que haverá uma demanda por conjuntos de dados de domínio público.

Além de uma grande quantidade de livros, a Iniciativa de Dados Institucionais também está colaborando com a Biblioteca Pública de Boston para digitalizar milhões de artigos de domínio público de vários jornais. A instituição disse que está aberta a colaborações semelhantes no futuro. A maneira exata como o conjunto de dados de livros será lançado ainda não foi determinada. A Iniciativa de Dados Institucionais solicitou a participação do Google na distribuição pública, mas o gigante das buscas ainda não concordou publicamente em hospedar o conjunto de dados, embora Harvard diga estar otimista a respeito. (O Google não respondeu ao pedido de comentário da WIRED.)

Independentemente de como o conjunto de dados do IDI seja lançado, ele se juntará a uma série de projetos, startups e iniciativas semelhantes que visam fornecer às empresas grandes quantidades de materiais de treinamento de IA de alta qualidade sem o risco de problemas de direitos autorais. Empresas como Calliope Networks e ProRata já surgiram, lançando licenças e projetando planos de compensação destinados a compensar criadores e detentores de direitos pela provisão de dados de treinamento de IA.

Além disso, existem outros novos projetos de domínio público. Na primavera passada, a startup francesa de IA Pleis lançou seu próprio conjunto de dados de domínio público, o Common Corpus, que, segundo Pierre-Carl Langlais, coordenador do projeto, contém uma coleção de cerca de 3 a 4 milhões de livros e periódicos. Apoiado pelo Ministério da Cultura francês, o Common Corpus foi baixado mais de 60.000 vezes apenas neste mês na plataforma de IA de código aberto Hugging Face. Na semana passada, a Pleis anunciou que lançará seus primeiros grandes modelos de linguagem treinados usando o conjunto de dados, que Langlais disse à WIRED constituem "os primeiros modelos já treinados exclusivamente com dados abertos e que atendem à Lei de IA [da UE]".

Atualmente, também estão em andamento esforços para criar conjuntos de dados de imagens semelhantes. A startup de IA Spawning lançou este verão um conjunto de dados chamado Source.Plus, contendo imagens de domínio público do Wikimedia Commons e de vários museus e arquivos. Por muito tempo, algumas importantes instituições culturais (como o Metropolitan Museum of Art) também disponibilizaram seus arquivos para o público por meio de projetos independentes.

Ed Newton-Rex, ex-executivo da Stability AI, agora dirige uma organização sem fins lucrativos que certifica ferramentas de IA éticas. Ele disse que o surgimento desses conjuntos de dados mostra que é possível construir modelos de IA de alto desempenho e alta qualidade sem precisar roubar materiais protegidos por direitos autorais. A OpenAI havia dito anteriormente a legisladores britânicos que seria "impossível" criar algo como o ChatGPT sem usar obras protegidas por direitos autorais. "Grandes conjuntos de dados de domínio público como este desconstroem ainda mais a 'defesa da necessidade' usada por algumas empresas de IA para justificar a raspagem de obras protegidas por direitos autorais para treinar seus modelos", disse Newton-Rex.

Mas ele ainda tem reservas sobre se o IDI e projetos semelhantes realmente mudarão o status quo do treinamento. "Esses conjuntos de dados só terão um impacto positivo se usados ​​em conjunto com outros dados licenciados para substituir as obras protegidas por direitos autorais raspadas. Se eles simplesmente forem adicionados a um conjunto de dados misto, tornando-se parte de um conjunto de dados que também inclui o trabalho vitalício não licenciado de criadores de todo o mundo, eles beneficiarão principalmente as empresas de IA", disse ele.