Kürzlich reichte der YouTube-Creator David Millette aus Massachusetts eine Sammelklage gegen OpenAI ein. Er wirft dem Unternehmen vor, ohne Erlaubnis Millionen von YouTube-Videotranskripten zum Trainieren seiner generativen KI-Modelle verwendet zu haben. Laut der Klage, die Millettes Anwälte beim United States District Court for the Northern District of California eingereicht haben, wird OpenAI beschuldigt, heimlich seine und die Videos anderer Creator transkribiert zu haben, um seine Modelle für ChatGPT und andere generative KI-Produkte zu trainieren.

youtube

Die Klage argumentiert, dass OpenAI durch das Sammeln dieser Daten offensichtlich von der Arbeit der Creator profitiert, was gegen das Urheberrecht und die Nutzungsbedingungen von YouTube verstößt. Diese verbieten die Verwendung von Videos für Anwendungen, die unabhängig von dem Dienst sind. Millettes Anwälte schreiben in der Klage, dass die KI-Produkte von OpenAI durch die Verwendung nicht autorisierter, nicht anerkannter und nicht vergüteter Trainingsdaten an Wert gewinnen.

Die Anwaltskanzlei, die Millette vertritt, strebt einen Prozess vor Geschworenen an und fordert eine Entschädigung von über 5 Millionen US-Dollar als Schadensersatz für alle möglicherweise betroffenen YouTube-Nutzer und Creator.

Es ist bekannt, dass generative KI-Modelle keine wirkliche Intelligenz besitzen. Sie lernen, indem sie große Datenmengen (wie Filme, Tonaufnahmen, wissenschaftliche Arbeiten usw.) verarbeiten und die Wahrscheinlichkeit und Muster des Auftretens von Daten erlernen. Viele Modelle werden mit Daten aus öffentlich zugänglichen Websites und Datensätzen im Internet trainiert. Obwohl Unternehmen behaupten, ihre Datenerfassung entspreche dem Prinzip der „Fair Use“, stimmen viele Urheberrechtsinhaber dem nicht zu und versuchen, diese Praxis durch Klagen zu stoppen.

Transkripte von Videos sind heute eine wichtige Trainingsdatenquelle, insbesondere da andere Datenquellen knapper werden. Daten von Originality.AI zeigen, dass weltweit über 35 % der Top-Websites die Webcrawler von OpenAI bereits blockiert haben. Darüber hinaus zeigt eine Studie der MIT Data Commons Initiative, dass etwa 25 % der hochwertigen Datenquellen eingeschränkt sind, was zu einem Mangel an Trainingsdaten für KI-Modelle führt.

Bemerkenswert ist, dass OpenAIs Whisper-Modell speziell zum Transkribieren von Video-Audios entwickelt wurde, um mehr Trainingsdaten zu sammeln. Berichten der New York Times zufolge transkribierte das OpenAI-Team über eine Million Stunden YouTube-Videos und nutzte diese Transkripte zum Trainieren seines GPT-4-Modells. Dies führte zu internen Diskussionen, ob dies gegen die YouTube-Richtlinien verstößt.

Kürzlich reichte der YouTube-Creator David Millette aus Massachusetts eine Sammelklage gegen OpenAI ein. Er wirft dem Unternehmen vor, ohne Erlaubnis Millionen von YouTube-Videotranskripten zum Trainieren seiner generativen KI-Modelle verwendet zu haben. Laut der Klage, die Millettes Anwälte beim United States District Court for the Northern District of California eingereicht haben, wird OpenAI beschuldigt, heimlich seine und die Videos anderer Creator transkribiert zu haben, um seine Modelle für ChatGPT und andere generative KI-Produkte zu trainieren.

Die Klage argumentiert, dass OpenAI durch das Sammeln dieser Daten offensichtlich von der Arbeit der Creator profitiert, was gegen das Urheberrecht und die Nutzungsbedingungen von YouTube verstößt. Diese verbieten die Verwendung von Videos für Anwendungen, die unabhängig von dem Dienst sind. Millettes Anwälte schreiben in der Klage, dass die KI-Produkte von OpenAI durch die Verwendung nicht autorisierter, nicht anerkannter und nicht vergüteter Trainingsdaten an Wert gewinnen.

Die Anwaltskanzlei, die Millette vertritt, strebt einen Prozess vor Geschworenen an und fordert eine Entschädigung von über 5 Millionen US-Dollar als Schadensersatz für alle möglicherweise betroffenen YouTube-Nutzer und Creator.

Es ist bekannt, dass generative KI-Modelle keine wirkliche Intelligenz besitzen. Sie lernen, indem sie große Datenmengen (wie Filme, Tonaufnahmen, wissenschaftliche Arbeiten usw.) verarbeiten und die Wahrscheinlichkeit und Muster des Auftretens von Daten erlernen. Viele Modelle werden mit Daten aus öffentlich zugänglichen Websites und Datensätzen im Internet trainiert. Obwohl Unternehmen behaupten, ihre Datenerfassung entspreche dem Prinzip der „Fair Use“, stimmen viele Urheberrechtsinhaber dem nicht zu und versuchen, diese Praxis durch Klagen zu stoppen.

Transkripte von Videos sind heute eine wichtige Trainingsdatenquelle, insbesondere da andere Datenquellen knapper werden. Daten von Originality.AI zeigen, dass weltweit über 35 % der Top-Websites die Webcrawler von OpenAI bereits blockiert haben. Darüber hinaus zeigt eine Studie der MIT Data Commons Initiative, dass etwa 25 % der hochwertigen Datenquellen eingeschränkt sind, was zu einem Mangel an Trainingsdaten für KI-Modelle führt.

Bemerkenswert ist, dass OpenAIs Whisper-Modell speziell zum Transkribieren von Video-Audios entwickelt wurde, um mehr Trainingsdaten zu sammeln. Berichten der New York Times zufolge transkribierte das OpenAI-Team über eine Million Stunden YouTube-Videos und nutzte diese Transkripte zum Trainieren seines GPT-4-Modells. Dies führte zu internen Diskussionen, ob dies gegen die YouTube-Richtlinien verstößt.

Wichtigste Punkte:

🔍  YouTuber David Millette verklagt OpenAI wegen der nicht autorisierten Verwendung von Videotranskripten zum KI-Training.

💰  Millette fordert über 5 Millionen US-Dollar Schadensersatz für alle betroffenen YouTube-Creator.

🚫  Die Datenquellen für generative KI-Modelle sind zunehmend eingeschränkt, viele Top-Websites haben OpenAIs Crawler blockiert.