Hinter der rasanten Entwicklung der künstlichen Intelligenz verbergen sich bei einigen Technologieriesen umstrittene Praktiken. Sie „entleeren“ nicht nur Bücher, Webseiten, Fotos und Social-Media-Posts, sondern nutzen auch in großem Umfang YouTube-Videos zum Trainieren ihrer KI-Modelle, ohne die Zustimmung der Urheber einzuholen.

Wessen Videos wurden verwendet?

Laut einer Untersuchung von Proof News nutzten Silicon-Valley-Giganten wie Anthropic, Nvidia, Apple und Salesforce Untertiteldaten von 173.536 YouTube-Videos zum Trainieren ihrer KI. Diese Videos stammen von über 48.000 Kanälen, obwohl YouTube das Scrapen von Material von seiner Plattform ohne Erlaubnis ausdrücklich verbietet.

youtube

Diese Datensätze, bekannt als „YouTube-Untertitel“, enthalten Untertitel von Videos von Bildungs- und Online-Lernkanälen wie Khan Academy, MIT und Harvard. Auch Videos von Wall Street Journal, NPR und BBC wurden verwendet, sogar von Shows wie „The Late Show with Stephen Colbert“, „Last Week Tonight with John Oliver“ und „Jimmy Kimmel Live“.

Proof News stellte außerdem fest, dass Videos von YouTube-Superstars wie MrBeast (289 Millionen Abonnenten, 2 Videos verwendet), Marques Brownlee (19 Millionen Abonnenten, 7 Videos verwendet), Jacksepticeye (fast 31 Millionen Abonnenten, 377 Videos verwendet) und PewDiePie (111 Millionen Abonnenten, 337 Videos verwendet) zum Trainieren der KI verwendet wurden. Einige der zum Trainieren der KI verwendeten Materialien verbreiteten sogar Verschwörungstheorien wie die „Flache-Erde“-Theorie.

Der Ärger der Urheber

„Niemand hat mich gefragt: ‚Wir möchten das verwenden‘“, sagte David Pakman, Moderator der „David Pakman Show“. Sein Kanal hat über 2 Millionen Abonnenten und über 2 Milliarden Aufrufe, doch fast 160 Videos wurden in den YouTube-Untertiteldatensatz aufgenommen.

Pakmans Team arbeitet Vollzeit, veröffentlicht täglich mehrere Videos und produziert auch Podcasts, TikTok-Videos und Inhalte für andere Plattformen. Wenn KI-Unternehmen dafür bezahlen würden, sagt Pakman, sollte er für die Nutzung seiner Daten entschädigt werden. Er weist darauf hin, dass einige Medienunternehmen kürzlich Verträge abgeschlossen haben, um für die Nutzung ihrer Werke zum Trainieren von KI bezahlt zu werden.

Dave Wiskus, CEO von Nebula, einem teilweise von Urhebern betriebenen Streaming-Dienst, dessen Urheberwerke von YouTube entnommen und zum Trainieren von KI verwendet wurden, sagte unverblümt: „Das ist Diebstahl“.

Die „Goldmine“ der Datensätze

KI-Unternehmen konkurrieren um qualitativ hochwertigere Daten, was einer der Gründe dafür ist, dass sie ihre Datenquellen geheim halten. Die New York Times berichtete Anfang des Jahres, dass Google (Eigentümer von YouTube) auch Videotext von der Plattform zum Trainieren seiner Modelle verwendet hat. Ein Sprecher antwortete darauf, dass die Nutzung mit Zustimmung der YouTube-Urheber erfolgte.

Die Untersuchung von Proof News ergab auch, dass OpenAI ohne Genehmigung YouTube-Videos verwendet hat. Ein Unternehmensvertreter bestätigte oder dementierte dies nicht.

Rechtliche und ethische Herausforderungen

YouTube-Untertitel und andere Arten von Sprach-zu-Text-Daten sind potenzielle „Goldminen“, da sie helfen können, Modelle zu trainieren, die die Art und Weise, wie Menschen sprechen und sich unterhalten, nachahmen. Dies wirft jedoch auch Fragen des Urheberrechts und der Ethik auf. Viele Urheber befürchten, dass ihre Arbeit zum Trainieren von KI verwendet wird, die letztendlich ihre Arbeit ersetzen könnte.

Proof News versuchte, die Eigentümer der in diesem Artikel genannten Kanäle zu kontaktieren. Viele reagierten nicht auf die Bitte um Stellungnahme. Keiner der von uns befragten Urheber war sich bewusst, dass seine Informationen entnommen wurden, geschweige denn, wie sie verwendet wurden.

Unsicherheit über die Zukunft

Viele Urheber sind sich über den weiteren Weg unsicher. Vollzeit-YouTuber patrouillieren regelmäßig, um nach der nicht autorisierten Verwendung ihrer Werke zu suchen, und reichen regelmäßig Löschungsanfragen ein. Einige befürchten, dass KI früher oder später in der Lage sein wird, Inhalte zu erstellen, die ihren Inhalten ähneln, oder diese sogar direkt zu kopieren.

Pakman, der Urheber der „David Pakman Show“, sah kürzlich die Macht der KI auf TikTok. Er fand ein Video, das als Tucker-Carlson-Clip gekennzeichnet war, aber als er es sich ansah, war er schockiert. Es klang wie Carlson, aber Wort für Wort war es das, was Pakman in seiner YouTube-Sendung gesagt hatte, sogar der Tonfall war identisch. Ebenso schockiert war er darüber, dass nur ein Kommentator in dem Video zu bemerken schien, dass es sich um eine Fälschung handelte – ein nachgeahmter Carlson-Klon, der Pakmans Skript vortrug.

„Das wird ein Problem sein“, sagte Pakman in seinem YouTube-Video über das gefälschte Video. „Man kann das mit fast jedem machen.“

Sid Black, Mitbegründer von EleutherAI, schrieb auf GitHub, dass er YouTube-Untertitel mithilfe eines Skripts erstellt habe. Das Skript lädt die Untertitel von YouTube so herunter, wie es die Browser der YouTube-Zuschauer tun, wenn sie Videos ansehen. Laut der Dokumentation auf GitHub verwendete Black 495 Suchbegriffe, um Videos zu sammeln, darunter „lustige Videoblogger“, „Einstein“, „Schwarze Neger“, „Schutzdienste“, „Informationskrieg“, „Quantenchromodynamik“, „Ben Shapiro“, „Uiguren“, „Fruitarismus“, „Kuchenrezepte“, „Nazca-Linien“ und „die Erde ist flach“.

Obwohl die Nutzungsbedingungen von YouTube den Zugriff auf seine Videos mit „automatisierten Mitteln“ verbieten, haben über 2000 GitHub-Nutzer den Code gesammelt oder befürwortet.

„Wenn YouTube dieses Modul daran hindern wollte zu funktionieren, gäbe es viele Möglichkeiten, dies zu tun“, schrieb der Machine-Learning-Ingenieur Jonas Depoix in der Diskussion auf GitHub, wo er den Code veröffentlichte, den Black zum Zugriff auf YouTube-Untertitel verwendet hatte. „Bis jetzt ist das nicht geschehen.“

In einer E-Mail an Proof News erklärte Depoix, dass er den Code seit seiner Erstellung als Student vor einigen Jahren für ein Projekt nicht mehr verwendet habe und überrascht sei, dass die Leute ihn nützlich finden. Er weigerte sich, Fragen zu den YouTube-Regeln zu beantworten.

Google-Sprecher Jack Malon antwortete in einer E-Mail auf die Bitte um Stellungnahme und sagte, das Unternehmen habe seit Jahren „Maßnahmen ergriffen, um Missbrauch und nicht autorisiertes Scrapen zu verhindern“. Er ging nicht auf die Frage ein, ob andere Unternehmen diese Materialien als Trainingsdaten verwendet haben.

Zu den von KI-Unternehmen verwendeten Videos gehören 146 Videos von „Einstein Parrot“, einem Kanal mit fast 150.000 Abonnenten. Marcia (die ihren Nachnamen nicht nennen wollte, aus Angst um die Sicherheit des berühmten Papageis), die Betreuerin des Graupapageis, fand es zunächst lustig, dass das KI-Modell die Worte des Papageis aufnahm.

„Wer würde schon die Stimme eines Papageis verwenden wollen?“, sagte Marcia. „Aber dann wurde mir klar, dass er sehr gut spricht. Er spricht mit meiner Stimme. Also imitiert er mich, und dann imitiert die KI den Papagei.“

Sobald die Daten von der KI aufgenommen wurden, können sie nicht mehr „vergessen“ werden. Marcia ist besorgt darüber, dass die Informationen über den Papagei auf unbekannte Weise verwendet werden könnten, einschließlich der Erstellung digitaler Kopien des Papageis, und befürchtet, dass er dazu gebracht werden könnte, Schimpfwörter zu sagen.

„Wir betreten Neuland“, sagte Marcia.

Referenzlinks:

https://www.wired.com/story/youtube-training-data-apple-nvidia-anthropic/

https://arstechnica.com/ai/2024/07/apple-was-among-the-companies-that-trained-its-ai-on-youtube-videos/