Die Harvard University gab am Donnerstag die Veröffentlichung eines hochwertigen Datensatzes mit fast einer Million gemeinfreier Bücher bekannt. Dieser steht allen zur Verfügung, um große Sprachmodelle und andere KI-Tools zu trainieren. Der Datensatz wurde von der neu gegründeten Institutional Data Initiative (IDI) der Harvard University erstellt und von Microsoft und OpenAI finanziert. Die enthaltenen Bücher stammen aus dem Google Books-Projekt und sind nicht mehr urheberrechtlich geschützt.
Der Datensatz ist etwa fünfmal so groß wie der berüchtigte Books3-Datensatz, der zum Trainieren von KI-Modellen wie Meta Llama verwendet wurde. Er umfasst verschiedene Genres, Epochen und Sprachen – von Klassikern von Shakespeare, Charles Dickens und Dante bis hin zu weniger bekannten tschechischen Mathematik-Lehrbüchern und walisischen Taschenwörterbüchern. Greg Lepért, der geschäftsführende Direktor der Institutional Data Initiative, erklärte, das Ziel des Projekts sei es, „faire Wettbewerbsbedingungen“ zu schaffen, indem die Öffentlichkeit, einschließlich kleinerer Akteure und Einzelforscher in der KI-Branche, Zugang zu einem hochgradig verfeinerten und kuratierten Content-Repository erhält, das normalerweise nur etablierte Technologiekonzerne mit den nötigen Ressourcen zusammenstellen können. Er betonte: „Es wurde streng geprüft.“

Bildquelle: Das Bild wurde mit KI generiert, Bildrechte: Midjourney
Lepért ist der Ansicht, dass die neue gemeinfreie Datenbank in Kombination mit anderen lizenzierten Materialien zum Aufbau von KI-Modellen verwendet werden kann. „Ich sehe das ähnlich wie Linux, das zu einem grundlegenden Betriebssystem in vielen Bereichen der Welt geworden ist“, sagte er. Er merkte an, dass Unternehmen dennoch zusätzliche Trainingsdaten benötigen würden, um ihre Modelle von denen der Konkurrenz abzuheben.
Burton Davis, Vice President und stellvertretender General Counsel für geistiges Eigentum bei Microsoft, betonte, dass die Unterstützung des Unternehmens für das Projekt mit seinem weitreichenden Glauben an die Schaffung von „zugänglichen Datenpools“ für KI-Startups übereinstimmt, die „öffentlichkeitsorientiert“ sind. Mit anderen Worten: Microsoft plant nicht unbedingt, alle KI-Trainingsdaten, die in seinen eigenen Modellen verwendet werden, durch gemeinfreie Alternativen wie die Bücher in der neuen Harvard-Datenbank zu ersetzen. „Wir verwenden öffentlich zugängliche Daten zum Trainieren unserer Modelle“, so Davis.
Mit Dutzenden von anhängigen Gerichtsverfahren zur Verwendung urheberrechtlich geschützter Daten zum Trainieren von KI steht die zukünftige Gestaltung von KI-Tools in der Schwebe. Sollten KI-Unternehmen gewinnen, könnten sie weiterhin das Internet crawlen, ohne Lizenzvereinbarungen mit Urheberrechtsinhabern abschließen zu müssen. Sollten sie jedoch verlieren, müssten KI-Unternehmen ihre Modellerstellung möglicherweise grundlegend überarbeiten. Projekte wie die Harvard-Datenbank machen mit beispielloser Geschwindigkeit Fortschritte und gehen davon aus – egal was passiert –, dass es eine Nachfrage nach gemeinfreien Datensätzen geben wird.
Neben der großen Anzahl von Büchern arbeitet die Institutional Data Initiative auch mit der Boston Public Library zusammen, um Millionen von gemeinfreien Artikeln aus verschiedenen Zeitungen zu scannen. Die Institution gab an, dass sie bereit ist, in Zukunft ähnliche Kooperationen einzugehen. Die genaue Veröffentlichung des Buchdatensatzes steht noch nicht fest. Die Institutional Data Initiative hat Google um eine gemeinsame Beteiligung an der öffentlichen Verbreitung gebeten, aber der Suchgigant hat noch nicht öffentlich zugestimmt, den Datensatz zu hosten, obwohl die Harvard University sich optimistisch zeigt. (Google hat auf die Anfrage von WIRED nicht reagiert.)
Unabhängig davon, wie der Datensatz der IDI veröffentlicht wird, wird er eine Reihe ähnlicher Projekte, Start-ups und Initiativen ergänzen, die Unternehmen große Mengen an hochwertigen KI-Trainingsmaterialien zur Verfügung stellen sollen, ohne das Risiko einzugehen, Urheberrechtsprobleme zu bekommen. Unternehmen wie Calliope Networks und ProRata sind bereits entstanden, die Lizenzen herausgeben und Vergütungspläne entwickeln, um Schöpfern und Rechteinhabern eine Vergütung für die Bereitstellung von KI-Trainingsdaten zu ermöglichen.
Darüber hinaus gibt es weitere neue gemeinfreie Projekte. Im vergangenen Frühjahr brachte das französische KI-Startup Pleis seinen eigenen gemeinfreien Datensatz Common Corpus heraus, der laut Projektkoordinator Pierre-Carl Langlais etwa 3 bis 4 Millionen Bücher und Zeitschriften umfasst. Mit Unterstützung des französischen Kulturministeriums wurde Common Corpus allein in diesem Monat über 60.000 Mal auf der Open-Source-KI-Plattform Hugging Face heruntergeladen. Letzte Woche kündigte Pleis die Veröffentlichung seiner ersten großen Sprachmodelle an, die mit diesem Datensatz trainiert wurden. Langlais erklärte gegenüber WIRED, dass diese Modelle die „ersten Modelle überhaupt“ seien, die vollständig mit offenen Daten trainiert wurden und den Anforderungen des [EU] KI-Gesetzes entsprechen.
Derzeit laufen auch Arbeiten zur Erstellung ähnlicher Bilddatensätze. Das KI-Startup Spawning veröffentlichte in diesem Sommer den Datensatz Source.Plus, der gemeinfreie Bilder von Wikimedia Commons sowie verschiedenen Museen und Archiven enthält. Wichtige Kultureinrichtungen (z. B. das Metropolitan Museum of Art) stellen ihre Archive schon seit langem im Rahmen unabhängiger Projekte der Öffentlichkeit zur Verfügung.
Ed Newton-Rex, ehemaliger Manager von Stability AI, leitet jetzt eine gemeinnützige Organisation zur Zertifizierung ethischer KI-Tools. Er erklärte, dass der Aufstieg dieser Datensätze zeige, dass es nicht notwendig sei, urheberrechtlich geschützte Materialien zu stehlen, um leistungsstarke und hochwertige KI-Modelle zu erstellen. OpenAI hatte zuvor britischen Gesetzgebern mitgeteilt, dass es „unmöglich“ sei, Produkte wie ChatGPT zu erstellen, ohne urheberrechtlich geschützte Werke zu verwenden. „Große gemeinfreie Datensätze wie dieser untergraben weiter die ‚Notwendigkeitsverteidigung‘, die einige KI-Unternehmen als Rechtfertigung für das Crawlen urheberrechtlich geschützter Werke zum Trainieren ihrer Modelle verwendet haben“, sagte Newton-Rex.
Er äußerte jedoch weiterhin Vorbehalte, ob die IDI und ähnliche Projekte die Trainingsrealität tatsächlich verändern werden. „Diese Datensätze werden nur dann eine positive Wirkung haben, wenn sie in Kombination mit anderen lizenzierten Daten verwendet werden, um gecrawlte, urheberrechtlich geschützte Werke zu ersetzen. Wenn sie nur zu einem gemischten Datensatz hinzugefügt werden, der auch das unerlaubt verwendete Lebenswerk von Schöpfern aus aller Welt enthält, werden sie hauptsächlich KI-Unternehmen zugutekommen“, sagte er.