Die deutsche Forschungseinrichtung LAION, die Daten zum Trainieren von Stable Diffusion und anderen generativen KI-Modellen erstellt hat, hat einen neuen Datensatz veröffentlicht, von dem behauptet wird, er sei „gründlich von bekannten Links zu mutmaßlichem Kinderpornografischem Material (CSAM) bereinigt“.
Der neue Datensatz Re-LAION-5B ist eigentlich eine Neuveröffentlichung des alten Datensatzes LAION-5B, der jedoch auf Grundlage von Empfehlungen der Non-Profit-Organisation Internet Observatory Foundation, Human Rights Watch, des Canadian Centre for Child Protection und des inzwischen aufgelösten Stanford Internet Observatory „repariert“ wurde. Er ist in zwei Versionen verfügbar: Re-LAION-5B Research und Re-LAION-5B Research-Safe (mit zusätzlicher Entfernung von NSFW-Inhalten). LAION gibt an, dass beide Versionen Tausende bekannter (und „möglicher“) CSAM-Links herausgefiltert haben.
LAION schreibt in einem Blogbeitrag: „LAION hat sich von Anfang an verpflichtet, illegale Inhalte aus seinen Datensätzen zu entfernen und hat von Anfang an entsprechende Maßnahmen ergriffen.“ „LAION hält sich strikt an den Grundsatz, dass illegale Inhalte, sobald sie entdeckt werden, so schnell wie möglich entfernt werden.“
Es ist wichtig zu beachten, dass die Datensätze von LAION keine Bilder enthalten und auch nie enthalten haben. Stattdessen handelt es sich um von LAION zusammengestellte Indizes von Bildlinks und Alternativtexten, die alle aus einem anderen Datensatz stammen – Common Crawl, der gecrawlte Websites und Webseiten enthält.
Bildquelle: Bild wurde mit KI generiert, Bildrechte liegen bei Midjourney
Die Veröffentlichung von Re-LAION-5B erfolgte nach einer Untersuchung des Stanford Internet Observatories im Dezember 2023, die ergab, dass LAION-5B (insbesondere die Untermenge namens LAION-5B400M) mindestens 1.679 illegale Bildlinks enthielt, die von Social-Media-Posts und beliebten Porno-Websites gecrawlt wurden. Dem Bericht zufolge enthielt 400M auch Links zu „verschiedenen unangemessenen Inhalten“, darunter pornografische Bilder, rassistische Hetze und schädliche soziale Stereotypen.
Obwohl die Stanford-Mitautoren des Berichts darauf hinwiesen, dass die Entfernung von verletzendem Material schwierig sei und das Vorhandensein von CSAM nicht unbedingt die Ausgabe von Modellen beeinflusse, die auf dem Datensatz trainiert wurden, erklärte LAION, LAION-5B vorübergehend offline zu nehmen.
Der Stanford-Bericht empfahl, dass Modelle, die auf LAION-5B trainiert wurden, „ausgemustert und, wenn möglich, die Verbreitung eingestellt werden sollten“. Möglicherweise im Zusammenhang damit hat das KI-Startup Runway kürzlich sein Stable Diffusion 1.5-Modell von der KI-Hosting-Plattform Hugging Face entfernt; wir haben das Unternehmen um weitere Informationen gebeten. (Runway arbeitete 2023 mit Stability AI, dem Unternehmen hinter Stable Diffusion, zusammen, um das ursprüngliche Stable Diffusion-Modell zu trainieren.)
Der neue Re-LAION-5B-Datensatz enthält etwa 5,5 Milliarden Text-Bild-Paare und wird unter der Apache2.0-Lizenz veröffentlicht. LAION gibt an, dass Dritte die Metadaten verwenden können, um vorhandene Kopien von LAION-5B zu bereinigen, indem sie übereinstimmende illegale Inhalte entfernen.
LAION betont, dass seine Datensätze für Forschungszwecke und nicht für kommerzielle Zwecke bestimmt sind. Doch wenn die Geschichte ein Indikator ist, wird dies einige Organisationen nicht davon abhalten. Neben Stability AI hat auch Google die LAION-Datensätze zum Trainieren seiner Bilderzeugungsmodelle verwendet.
LAION fährt in seinem Beitrag fort: „Insgesamt wurden nach dem Abgleich mit den von unseren Partnern bereitgestellten Listen von Links und Bild-Hashes 2.236 Links [zu mutmaßlichem CSAM] entfernt.“ „Diese Links beinhalten auch die 1.008 Links, die im Dezember 2023 im Bericht des Stanford Internet Observatories gefunden wurden… Wir fordern alle Forschungslabore und Organisationen, die noch den alten LAION-5B verwenden, dringend auf, so schnell wie möglich auf den Re-LAION-5B-Datensatz umzusteigen.“