Eine neue Studie sorgt für Aufsehen: Sie wirft OpenAI vor, beim Training seines neuesten KI-Modells ohne Genehmigung kostenpflichtige Bücher des O'Reilly-Verlags verwendet zu haben. Veröffentlicht wurde die Studie vom gemeinnützigen AI Disclosures Project, das 2024 von Medienmagnat Tim O'Reilly und Ökonom Ilan Strauss gegründet wurde.
KI-Modelle lassen sich als komplexe Vorhersagemaschinen verstehen. Sie lernen Muster aus riesigen Datenmengen – darunter Bücher, Filme, Fernsehsendungen etc. – und können so auf einfache Anfragen reagieren. Wenn ein Modell schreibt, z.B. einen Artikel über die griechische Tragödie, oder stilisierte Bilder erstellt, greift es auf diesen umfangreichen Wissensbestand zurück, anstatt komplett neue Inhalte zu erschaffen.
Die Art und Weise, wie KI-Modelle trainiert werden, verändert sich. Immer mehr KI-Labore, darunter OpenAI, nutzen KI-generierte Daten, um dem schwindenden Angebot an realen Daten (vor allem aus öffentlichen Online-Ressourcen) zu begegnen. Trotzdem greifen viele Institutionen aus Sicherheitsgründen weiterhin auf reale Daten zurück, da die ausschließliche Nutzung synthetischer Daten Risiken birgt.
Die Studie behauptet, dass OpenAIs GPT-4o-Modell wahrscheinlich auf Basis kostenpflichtiger O'Reilly-Bücher trainiert wurde, ohne dass eine Lizenzvereinbarung mit O'Reilly bestand. Die Studie zeigt, dass GPT-4o im Vergleich zum Vorgängermodell GPT-3.5 Turbo deutlich besser Inhalte aus den kostenpflichtigen O'Reilly-Büchern erkennt.
Die Forscher nutzten eine Methode namens DE-COP, um urheberrechtlich geschützte Inhalte in den Trainingsdaten von Sprachmodellen zu erkennen. Sie analysierten das Wissen von GPT-4o, GPT-3.5 Turbo und anderen OpenAI-Modellen. Dabei verwendeten sie 13.962 Textauszüge aus 34 O'Reilly-Büchern, um die Wahrscheinlichkeit abzuschätzen, dass diese Auszüge in den Trainingsdaten enthalten waren.
Die Ergebnisse zeigen, dass GPT-4o deutlich mehr Inhalte aus den kostenpflichtigen O'Reilly-Büchern wiedererkennt, was darauf hindeutet, dass das Modell im Training möglicherweise Zugang zu diesen nicht öffentlich zugänglichen Büchern hatte.
Die Forscher betonen jedoch, dass dies kein endgültiger Beweis ist. OpenAI könnte die Inhalte auch durch Kopieren und Einfügen von Nutzern erhalten haben. Außerdem wurden die neuesten OpenAI-Modelle in der Studie nicht bewertet, daher ist es nicht ausgeschlossen, dass diese keine kostenpflichtigen O'Reilly-Bücher zum Training verwendet haben.
Obwohl OpenAI für einen Teil der Trainingsdaten bezahlt und Vereinbarungen mit Nachrichtenverlagen und sozialen Netzwerken getroffen hat, wird die Verwendung der Trainingsdaten im aktuellen rechtlichen Umfeld von vielen Seiten kritisiert. Diese Studie stellt OpenAI vor zusätzliche Herausforderungen in den zahlreichen anhängigen Rechtsstreitigkeiten bezüglich der Nutzung von Trainingsdaten.
Wichtigste Punkte:
📚 OpenAI wird vorgeworfen, ohne Erlaubnis kostenpflichtige O'Reilly-Bücher zum Training seiner KI-Modelle verwendet zu haben.
🔍 Die Studie zeigt, dass GPT-4o O'Reilly-Inhalte deutlich besser erkennt als frühere Modelle.
⚖️ OpenAI steht wegen der Nutzung seiner Trainingsdaten vor mehreren rechtlichen Herausforderungen.