Eine neue Studie zeigt, dass KI-Modelle zunehmend den Zugriff auf ihre Trainingsdaten im Internet verlieren. Die Studie der Data Provenance Initiative ergab, dass der Anteil der vollständig blockierten Inhalte in KI-Trainingsdaten von etwa 1 % im April 2023 auf 5-7 % im April 2024 gestiegen ist. Dieser Trend könnte dazu führen, dass zukünftige KI-Modelle nur noch auf weniger, voreingenommenere und veraltete Informationen zugreifen können.
Bildquelle: Das Bild wurde mit KI generiert, Lizenzgeber: Midjourney
Die Studie analysierte die robots.txt-Dateien und Nutzungsbedingungen von 14.000 Webdomains, die als Quelle für gängige KI-Trainingsdatensätze wie C4, RefinedWeb und Dolma dienen.
Die Studie ergab, dass Nachrichtenwebsites, Foren und Social-Media-Plattformen die Hauptquellen für die Einschränkung des Zugriffs auf KI-Daten sind. Der Blockierungsanteil von Nachrichtenwebsites stieg dabei von 3 % auf 45 %. Das bedeutet, dass hochwertige Nachrichteninhalte in KI-Trainingsdaten möglicherweise weniger vertreten sind und durch minderwertige Inhalte von Unternehmens- und E-Commerce-Websites ersetzt werden.
Dies stellt eine Herausforderung für KI-Entwickler dar, da hochwertige Daten für das Training leistungsfähiger Modelle unerlässlich sind. Anbieter hochwertiger Inhalte könnten jedoch durch Lizenzvereinbarungen mit KI-Unternehmen neue Einnahmequellen erschließen.
Mark Zuckerberg, CEO von Meta, erklärte, dass der Erwerb ausreichend lizenzierter Daten zum Trainieren eines leistungsfähigen KI-Modells nahezu unmöglich oder sehr teuer sei.
Ohne eine Entscheidung zur fairen Nutzung könnte sich diese Situation weiter verschärfen. OpenAI hat kürzlich Millionen von Dollar an Verträge mit mehreren Verlagen abgeschlossen, um deren Inhalte für die Echtzeitanzeige und das KI-Training zu nutzen. Es ist zu erwarten, dass andere Unternehmen diesem Beispiel folgen werden, es sei denn, es kommt zu einer wesentlichen Änderung der Rechtsprechung.
Wichtigste Punkte:
🛑 Zunehmende Beschränkungen des Datenzugriffs: Der Anteil der blockierten Inhalte in KI-Trainingsdaten ist zwischen 2023 und 2024 deutlich gestiegen, wobei der Blockierungsanteil von Nachrichtenwebsites von 3 % auf 45 % anstieg.
📉 Rückgang hochwertiger Daten: Hochwertige Nachrichteninhalte sind in KI-Trainingsdaten weniger vertreten und werden möglicherweise durch minderwertige Unternehmens- und E-Commerce-Inhalte ersetzt.
💸 Hohe Kosten und Lizenzprobleme: Der Erwerb ausreichender Daten für das KI-Training ist teuer. OpenAI und Meta stehen vor Herausforderungen, während Anbieter hochwertiger Inhalte durch Lizenzvereinbarungen neue Einnahmequellen finden könnten.