Harvard publica conjunto de dados com milhões de livros para treinar modelos de IA

A Universidade de Harvard anunciou recentemente que planeja lançar um conjunto de dados contendo quase 1 milhão de livros de domínio público, que podem ser usados por qualquer pessoa para treinar grandes modelos de linguagem e outras ferramentas de inteligência artificial.

Este projeto é liderado pela recém-criada Iniciativa de Dados Institucionais (Institutional Data Initiative) da Universidade de Harvard e foi concluído com o financiamento da Microsoft e da OpenAI. O conjunto de dados inclui livros digitalizados do projeto Google Books, abrangendo obras clássicas de Shakespeare, Dickens, Dante, entre outras, além de livros didáticos de matemática tchecos obscuros e dicionários galeses.

Assistente de IA Robô

Observação da fonte: A imagem foi gerada por IA, com direitos de imagem da Midjourney.

Este conjunto de dados, cinco vezes maior que o “Books3 dataset”, visa fornecer um ambiente de competição justa para o campo da inteligência artificial, permitindo que o público, especialmente pequenas empresas de IA e pesquisadores individuais, acessem dados de alta qualidade que geralmente só estão disponíveis para grandes empresas de tecnologia. Greg Leppert afirma que o projeto passou por uma rigorosa seleção e curadoria de conteúdo.

Burton Davis, vice-presidente da Microsoft, enfatizou que o apoio da Microsoft ao projeto tem como objetivo criar um “pool de dados acessível” para startups e garantir que esses dados sejam gerenciados com base no “interesse público”. Tom Rubin, chefe de propriedade intelectual da OpenAI, também declarou que a empresa está feliz em apoiar este projeto.

Com o aumento de processos judiciais sobre o uso de dados protegidos por direitos autorais em IA, projetos como este conjunto de dados de domínio público de Harvard estão se tornando uma fonte importante de dados de treinamento para IA. Embora ainda não esteja claro como o conjunto de dados será lançado especificamente, espera-se que forneça às empresas uma grande quantidade de dados de alta qualidade, evitando problemas de direitos autorais.

A “Iniciativa de Dados Institucionais” da Universidade de Harvard não se limita a livros; em colaboração com a Biblioteca Pública de Boston, digitalizou milhões de artigos de jornais de domínio público e planeja colaborações semelhantes com mais parceiros no futuro. Além disso, Harvard está em negociações com o Google para discutir como realizar a distribuição pública do conjunto de dados.

Este projeto se juntará a várias iniciativas semelhantes que também se comprometem a fornecer materiais de treinamento de IA de alta qualidade, evitando riscos de direitos autorais. No futuro, com o surgimento de mais conjuntos de dados de domínio público, as empresas de IA terão mais opções para treinar seus modelos, reduzindo simultaneamente os riscos legais relacionados a direitos autorais.

Notícias e Informações de IA

Harvard publica conjunto de dados com milhões de livros para treinar modelos de IA

AIbase基地

Notícias de IA Relacionadas Recomendadas

xAI Grok-3 supera o GPT4.5 e conquista o topo da arena de modelos de linguagem grandes

ByteDance lança AIBrix: novo sistema de inferência de código aberto projetado para modelos de linguagem grandes

Baidu: Lançará a série de modelos de linguagem grandes Wenxin 4.5 nos próximos meses e abrirá o código-fonte em 30 de junho

Conhecimento histórico como ponto fraco da IA: modelos de linguagem grandes têm dificuldades com problemas históricos complexos