Recientemente, LAION anunció el lanzamiento de una nueva versión revisada de su conjunto de datos de entrenamiento de IA, Re-LAION-5B. Este nuevo conjunto de datos mejora significativamente el popular LAION-5B, especialmente en la eliminación de enlaces relacionados con material de abuso sexual infantil (CSAM). LAION afirma que Re-LAION-5B es el primer conjunto de datos a escala web del mundo que limpia exhaustivamente los enlaces CSAM conocidos en un conjunto de datos de pares texto-imagen.

Hacker, ataque

Un portavoz de LAION mencionó que Re-LAION-5B se divide principalmente en dos versiones: Re-LAION-5B Research y Re-LAION-5B Research-Safe. En este nuevo conjunto de datos, se eliminaron un total de 2.236 enlaces, revisados ​​según una lista proporcionada en colaboración con organizaciones de protección infantil. De estos, 1.008 enlaces fueron confirmados en un informe publicado en diciembre de 2023 por el Observatorio de Internet de Stanford.

Cabe destacar que LAION señala que muchos enlaces conocidos de material de abuso sexual infantil podrían ya no estar activos, ya que las agencias relevantes trabajan constantemente para eliminar este contenido de internet. Por lo tanto, esta cifra representa un posible límite superior; el número real de enlaces CSAM funcionales podría ser menor. Re-LAION-5B actualmente contiene 5.500 millones de pares de texto e imagen. Terceros pueden utilizar estos metadatos para limpiar los trabajos derivados existentes de LAION-5B, generando diferencias y eliminando todo el contenido coincidente.

LAION espera que el lanzamiento de Re-LAION-5B establezca un nuevo estándar de seguridad para la limpieza de conjuntos de datos a escala web. Esta actualización se produce tras las críticas recibidas al conjunto de datos original LAION-5B por incluir imágenes de pacientes. Simultáneamente, LAION también menciona que la presencia de CSAM en los conjuntos de datos de entrenamiento de IA es un problema grave, especialmente porque algunos sistemas entrenados incluso se utilizan para generar contenido CSAM.

Según un informe de la Internet Watch Foundation (IWF), desde el otoño de 2023 se ha producido un aumento significativo del material de abuso sexual infantil generado por IA. Este aumento de contenido de IA no solo dificulta las investigaciones de casos reales de abuso infantil, sino que también provoca un aumento en los informes automáticos de CSAM en las plataformas de redes sociales, lo que complica aún más el problema.

Puntos clave:

🌟 Re-LAION-5B es el primer conjunto de datos a escala web del mundo que limpia exhaustivamente los enlaces CSAM en un conjunto de datos de pares texto-imagen.

🔗 Se eliminaron 2.236 enlaces, incluyendo 1.008 enlaces conocidos proporcionados por organizaciones de protección infantil.

🛡️ LAION espera que el nuevo conjunto de datos establezca un nuevo estándar de seguridad para la limpieza de conjuntos de datos a escala web.