A Universidade de Harvard anunciou recentemente que planeja lançar um conjunto de dados contendo quase 1 milhão de livros de domínio público, que podem ser usados por qualquer pessoa para treinar grandes modelos de linguagem e outras ferramentas de inteligência artificial.

Este projeto é liderado pela recém-criada Iniciativa de Dados Institucionais (Institutional Data Initiative) da Universidade de Harvard e foi concluído com o financiamento da Microsoft e da OpenAI. O conjunto de dados inclui livros digitalizados do projeto Google Books, abrangendo obras clássicas de Shakespeare, Dickens, Dante, entre outras, além de livros didáticos de matemática tchecos obscuros e dicionários galeses.

Assistente de IA Robô

Observação da fonte: A imagem foi gerada por IA, com direitos de imagem da Midjourney.

Este conjunto de dados, cinco vezes maior que o “Books3 dataset”, visa fornecer um ambiente de competição justa para o campo da inteligência artificial, permitindo que o público, especialmente pequenas empresas de IA e pesquisadores individuais, acessem dados de alta qualidade que geralmente só estão disponíveis para grandes empresas de tecnologia. Greg Leppert afirma que o projeto passou por uma rigorosa seleção e curadoria de conteúdo.

Burton Davis, vice-presidente da Microsoft, enfatizou que o apoio da Microsoft ao projeto tem como objetivo criar um “pool de dados acessível” para startups e garantir que esses dados sejam gerenciados com base no “interesse público”. Tom Rubin, chefe de propriedade intelectual da OpenAI, também declarou que a empresa está feliz em apoiar este projeto.

Com o aumento de processos judiciais sobre o uso de dados protegidos por direitos autorais em IA, projetos como este conjunto de dados de domínio público de Harvard estão se tornando uma fonte importante de dados de treinamento para IA. Embora ainda não esteja claro como o conjunto de dados será lançado especificamente, espera-se que forneça às empresas uma grande quantidade de dados de alta qualidade, evitando problemas de direitos autorais.

A “Iniciativa de Dados Institucionais” da Universidade de Harvard não se limita a livros; em colaboração com a Biblioteca Pública de Boston, digitalizou milhões de artigos de jornais de domínio público e planeja colaborações semelhantes com mais parceiros no futuro. Além disso, Harvard está em negociações com o Google para discutir como realizar a distribuição pública do conjunto de dados.

Este projeto se juntará a várias iniciativas semelhantes que também se comprometem a fornecer materiais de treinamento de IA de alta qualidade, evitando riscos de direitos autorais. No futuro, com o surgimento de mais conjuntos de dados de domínio público, as empresas de IA terão mais opções para treinar seus modelos, reduzindo simultaneamente os riscos legais relacionados a direitos autorais.