Kürzlich sorgten Dokumente, die im Rahmen einer Sammelklage gegen Meta wegen Urheberrechtsverletzungen aufgetaucht sind, für Aufsehen. Sie enthüllen, dass das Unternehmen die illegale Online-Bibliothek Library Genesis (LibGen) zum Trainieren seines neuesten KI-Chatbots Llama3 genutzt hat. Die Dokumente zeigen, dass Meta-Ingenieure die potenziellen Risiken der Nutzung dieser „Schattenbibliothek“, insbesondere im Hinblick auf Urheberrechte und Datenbesitz, diskutiert haben. Trotz der potenziellen negativen Folgen und des Reputationsrisikos genehmigte Meta-CEO Mark Zuckerberg die Entscheidung.
Bildquelle: KI-generiertes Bild, Lizenzgeber Midjourney
Auf Anordnung des Gerichts wurden interne, vertrauliche Gespräche über die Nutzung des LibGen-Datensatzes freigegeben. Die Dokumente zeigen, dass Meta-Manager in Gesprächen mit dem KI-Forschungsteam deutlich machten, dass die LibGen-Daten „bekanntlich urheberrechtsverletzend“ seien, und sich dennoch für deren Verwendung zur Leistungssteigerung von Llama3 entschieden. In einer E-Mail wies Metas Produktmanagementdirektor Sony Theakanath darauf hin, dass die Entscheidung, LibGen zu nutzen, zwar ein Reputationsrisiko darstelle, aber auch andere KI-Unternehmen ähnliche Daten verwendeten, was Metas Team den Eindruck vermittelte, nicht allein auf diesem Weg zu sein.
Besorgniserregender ist, dass Meta-Mitarbeiter auch darüber diskutierten, wie LibGen-Texte bearbeitet und gefiltert werden könnten, um Urheberrechtsvermerke wie ISBN und Copyright-Hinweise zu entfernen. Ein internes Memo besagte, dass das von LibGen bereitgestellte Material „hochwertig und umfangreich sei und sich hervorragend zum Erlernen von spezialisiertem Wissen eigne“. Dies deutet darauf hin, dass Meta versucht hat, die Verwendung nicht autorisierter Inhalte zu verschleiern.
Darüber hinaus erwähnten Meta-Mitarbeiter in E-Mails, dass das direkte Herunterladen von Seeds über die Firmen-IP-Adresse möglicherweise unangemessen sei und äußerten Bedenken. Doch unter Zuckerbergs „von oben gedrängter“ Entscheidung zur Nutzung des LibGen-Datensatzes wird Metas Siegeswille im KI-Wettbewerb deutlich. Der Vorfall hat erneut die Aufmerksamkeit und die Fragen der Öffentlichkeit hinsichtlich des Umgangs großer Technologieunternehmen mit Urheberrechten auf sich gezogen.
Das Ergebnis dieses Urheberrechtsprozesses könnte erhebliche Auswirkungen auf andere laufende ähnliche Fälle haben, insbesondere auf die Verwendung von Bildern, Musik und literarischen Werken. Mit dem steigenden Bedarf von Technologieunternehmen an urheberrechtlich geschütztem Material wird der Schutz der Rechte von Urheberrechtsinhabern in den Mittelpunkt rücken.