Meta steht vor einer Klage wegen Urheberrechtsverletzung. Die Anwälte des Klägers behaupten, Meta-CEO Mark Zuckerberg habe die Nutzung eines Datensatzes mit illegal kopierten E-Books und Artikeln zum Trainieren des Llama AI-Modells genehmigt. Dieser Fall ist einer von vielen Urheberrechtsklagen gegen mehrere Technologiekonzerne, denen vorgeworfen wird, urheberrechtlich geschützte Werke ohne Genehmigung zum Trainieren von KI-Modellen verwendet zu haben.
In Dokumenten, die am Mittwochabend beim Bundesbezirksgericht für den nördlichen Bezirk Kaliforniens eingereicht wurden, bekräftigten die Kläger eine Aussage von Meta aus dem letzten Jahr, in der enthüllt wurde, dass Zuckerberg die Verwendung des Datensatzes namens LibGen für das Llama-Training genehmigt hatte. LibGen gilt als „Link-Aggregator“, der eine große Menge urheberrechtlich geschützter wissenschaftlicher Veröffentlichungen bereitstellt. Obwohl die Website aufgrund von Urheberrechtsverletzungen mehrfach verklagt und zur Schließung aufgefordert wurde, bietet sie weiterhin Werke von großen Verlagen wie Cengage Learning und McGraw Hill an.
Bildquelle: Das Bild wurde mit KI generiert und von Midjourney lizenziert.
In den Dokumenten wird erwähnt, dass Meta-Mitarbeiter zugegeben haben, dass LibGen ein „Datensatz ist, von dem wir wissen, dass er illegal kopiert wurde“, und dass seine Verwendung die Verhandlungsposition des Unternehmens gegenüber Aufsichtsbehörden negativ beeinflussen könnte. Besonders besorgniserregend ist, dass dem Meta-Ingenieur Nikolay Bashlykov vorgeworfen wird, ein Skript geschrieben zu haben, um Urheberrechtsinformationen aus LibGen-E-Books zu entfernen, darunter „Copyright“ und „Danksagungen“. Meta soll auch Copyright-Markierungen und Quellmetadaten aus wissenschaftlichen Artikeln entfernt haben, um seine Urheberrechtsverletzungen zu verschleiern.
Umstritten ist auch, dass Meta angeblich LibGen-Inhalte über Torrenting heruntergeladen und zur Verbreitung dieser illegal kopierten Dateien beigetragen hat. Torrenting ist eine Methode zum Verteilen von Dateien im Internet, bei der die Downloader gleichzeitig Inhalte teilen, während sie Dateien herunterladen. Die Anwälte des Klägers argumentieren, dass Meta durch die Teilnahme an Torrenting tatsächlich eine andere Form von Urheberrechtsverletzung begangen hat. Obwohl Meta-Ingenieure Bedenken äußerten, dass dies illegal sei, setzte Meta diese Praxis mit Unterstützung des Leiters für generative KI, Ahmad Al-Dahle, fort.
Diese Vorwürfe scheinen mit einem Bericht der New York Times vom April letzten Jahres übereinzustimmen, der darauf hindeutete, dass Meta bei der Datensammlung für die KI Abkürzungen genommen hat. Berichten zufolge hatte Meta afrikanische Auftragnehmer mit der Zusammenfassung von Büchern beauftragt und erwog den Kauf des Verlages Simon & Schuster. Meta-Manager waren jedoch der Ansicht, dass die Aushandlung von Urheberrechtslizenzen zu lange dauern würde, und die Doktrin der „Fair Use“ wurde zu ihrer Hauptverteidigung.
Der Fall ist noch nicht entschieden und betrifft nur frühe Llama-Modelle von Meta. Obwohl das Gericht 2023 mehrere KI-bezogene Urheberrechtsklagen abgewiesen hat, weil die Kläger keine Urheberrechtsverletzung nachweisen konnten, könnten die Vorwürfe in diesem Fall dennoch negative Auswirkungen auf Meta haben. Richter Vince Chhabria wies in einem Beschluss vom Mittwoch den Antrag von Meta zurück, einen Großteil der Dokumente zu entfernen, und erklärte, dass die Entfernung der Dokumente offensichtlich dazu diente, negative Publicity zu vermeiden, anstatt sensible Geschäftsinformationen zu schützen.
Dieser Fall wird die breite Diskussion darüber weiter anregen, wie Technologieunternehmen urheberrechtlich geschützte Werke zum Trainieren von KI-Modellen verwenden, insbesondere die Frage der Abgrenzung zwischen „Fair Use“ und Urheberrechtsschutz.