La institución de investigación alemana LAION, creadora del conjunto de datos utilizado para entrenar Stable Diffusion y otros modelos de IA generativa, ha lanzado un nuevo conjunto de datos que afirma estar "completamente limpiado de enlaces conocidos de material de abuso sexual infantil (CSAM)."

El nuevo conjunto de datos, Re-LAION-5B, es en realidad una reedición del antiguo LAION-5B, pero implementa "correcciones" según las recomendaciones de la organización sin fines de lucro Internet Watch Foundation, Human Rights Watch, el Canadian Centre for Child Protection y el ahora disuelto Observatorio de Internet de Stanford. Está disponible en dos versiones para descargar: Re-LAION-5B Research y Re-LAION-5B Research-Safe (que también elimina contenido NSFW adicional). LAION afirma que ambas versiones han filtrado miles de enlaces conocidos (y "potencialmente") de CSAM.

LAION escribió en una entrada de blog: "Desde el principio, LAION se ha comprometido a eliminar el contenido ilegal de sus conjuntos de datos y ha tomado las medidas adecuadas para lograrlo desde el principio". "LAION cumple estrictamente el principio de que el contenido ilegal se elimina lo antes posible una vez que se detecta".

Cabe destacar que los conjuntos de datos de LAION no contienen imágenes, ni nunca las han contenido. En cambio, son un índice de enlaces a imágenes y texto alternativo recopilados por LAION, todo ello procedente de otro conjunto de datos: Common Crawl, que contiene sitios web y páginas web rastreadas.

Inteligencia artificial Brazo robótico IA (6)

Nota de la fuente: Imagen generada por IA, proveída por Midjourney

El lanzamiento de Re-LAION-5B se produce tras una investigación realizada en diciembre de 2023 por el Observatorio de Internet de Stanford, que descubrió que LAION-5B (específicamente, un subconjunto llamado LAION-5B400M) contenía al menos 1.679 enlaces a imágenes ilegales extraídas de publicaciones en redes sociales y sitios web para adultos populares. Según el informe, 400M también contenía enlaces a "diversos contenidos inapropiados", incluyendo imágenes pornográficas, difamación racista y estereotipos sociales dañinos.

Aunque los coautores de la Universidad de Stanford del informe señalaron que eliminar el contenido infractor sería difícil y que la presencia de CSAM no afectaría necesariamente la salida de los modelos entrenados en el conjunto de datos, LAION declaró que retiraría temporalmente LAION-5B.

El informe de Stanford recomendó que los modelos entrenados en LAION-5B "deberían desecharse y, si es posible, dejar de distribuirse". Quizás relacionado con esto, la startup de IA Runway retiró recientemente su modelo Stable Diffusion 1.5 de la plataforma de alojamiento de IA Hugging Face; nos hemos puesto en contacto con la empresa para obtener más información. (Runway colaboró en 2023 con Stability AI, la empresa detrás de Stable Diffusion, para ayudar a entrenar el modelo original de Stable Diffusion).

El nuevo conjunto de datos Re-LAION-5B contiene aproximadamente 5.500 millones de pares de texto e imagen y se publica bajo la licencia Apache 2.0. LAION indica que los terceros pueden utilizar los metadatos para limpiar las copias existentes de LAION-5B eliminando el contenido ilegal coincidente.

LAION enfatiza que su conjunto de datos está destinado a la investigación, no a fines comerciales. Pero si la historia sirve de algo, esto no detendrá a algunas organizaciones. Además de Stability AI, Google también ha utilizado el conjunto de datos LAION para entrenar sus modelos de generación de imágenes.

LAION continúa en su publicación: "Tras la comparación con las listas de enlaces y hashes de imágenes proporcionadas por nuestros colaboradores, se eliminaron un total de 2.236 enlaces [a presuntos CSAM]. "Estos enlaces también incluyen los 1.008 enlaces encontrados en el informe del Observatorio de Internet de Stanford de diciembre de 2023... Instamos encarecidamente a todos los laboratorios de investigación y organizaciones que aún utilicen el antiguo LAION-5B a que migren lo antes posible al conjunto de datos Re-LAION-5B."