Die Harvard University gab kürzlich bekannt, einen Datensatz mit fast einer Million Büchern aus der Public Domain veröffentlichen zu wollen. Dieser Datensatz soll jedem zur Verfügung stehen, der damit große Sprachmodelle und andere KI-Tools trainieren möchte.
Das Projekt wird von der neu gegründeten Institutional Data Initiative der Harvard University geleitet und von Microsoft und OpenAI finanziert. Der Datensatz umfasst gescannte Bücher aus dem Google Books-Projekt und beinhaltet klassische Werke von Shakespeare, Dickens, Dante und andere, aber auch weniger bekannte tschechische Mathematik-Lehrbücher und walisische Wörterbücher.
Bildquelle: Das Bild wurde mit KI generiert und stammt von Midjourney.
Der Datensatz, der fünfmal größer als der „Books3-Datensatz“ ist, soll ein faires Wettbewerbsumfeld im Bereich der künstlichen Intelligenz schaffen. Er soll der Öffentlichkeit, insbesondere kleinen KI-Unternehmen und einzelnen Forschern, Zugang zu hochwertigen Daten ermöglichen, die bisher meist nur großen Technologieunternehmen zugänglich waren. Greg Leppert betonte, dass das Projekt streng geprüft und sorgfältig kuratiert wurde.
Burton Davis, Vizepräsident von Microsoft, unterstrich, dass Microsoft das Projekt unterstützt, um einen „zugänglichen Datenpool“ für Startups zu schaffen und sicherzustellen, dass die Daten auf der Grundlage des „öffentlichen Interesses“ verwaltet werden. Tom Rubin, Leiter des geistigen Eigentums bei OpenAI, erklärte ebenfalls, dass das Unternehmen die Unterstützung dieses Projekts begrüßt.
Vor dem Hintergrund der zunehmenden Klagen über die Verwendung urheberrechtlich geschützter Daten in der KI werden ähnliche Projekte wie das der Harvard University zu einer wichtigen Quelle für KI-Trainingsdaten. Obwohl noch unklar ist, wie der Datensatz genau veröffentlicht wird, wird er Unternehmen voraussichtlich eine große Menge an hochwertigen Daten liefern und gleichzeitig Urheberrechtsprobleme vermeiden.
Die „Institutional Data Initiative“ der Harvard University beschränkt sich nicht nur auf Bücher. In Zusammenarbeit mit der Boston Public Library wurden Millionen von Zeitungsartikeln aus der Public Domain gescannt, und weitere ähnliche Kooperationen mit anderen Partnern sind geplant. Darüber hinaus führt Harvard Gespräche mit Google über die öffentliche Verbreitung des Datensatzes.
Dieses Projekt reiht sich in mehrere ähnliche Initiativen ein, die ebenfalls qualitativ hochwertige KI-Trainingsmaterialien ohne Urheberrechtsrisiken bereitstellen wollen. Mit dem Aufkommen weiterer Datensätze aus der Public Domain werden KI-Unternehmen in Zukunft mehr Auswahlmöglichkeiten beim Training ihrer Modelle haben und gleichzeitig das rechtliche Risiko im Zusammenhang mit Urheberrechten reduzieren.