Récemment, LAION a annoncé le lancement de Re-LAION-5B, une nouvelle version de son jeu de données d'entraînement IA, revue pour des raisons de sécurité. Ce nouveau jeu de données améliore considérablement la version précédente très populaire, LAION-5B, notamment en supprimant les liens associés à la maltraitance sexuelle d'enfants (MSE). LAION affirme que Re-LAION-5B est le premier jeu de données à l'échelle du web au monde à nettoyer complètement les liens MSE connus dans un jeu de données de paires texte-image.

Hacker, attaque

Un porte-parole de LAION a mentionné que Re-LAION-5B se décline en deux versions : Re-LAION-5B Research et Re-LAION-5B Research-Safe. Au total, 2 236 liens ont été supprimés dans ce nouveau jeu de données. Ces liens ont été vérifiés à partir d'une liste fournie en collaboration avec des organisations de protection de l'enfance. Parmi ceux-ci, 1 008 liens ont été confirmés dans un rapport publié en décembre 2023 par l'Observatoire Internet de Stanford.

Il est important de noter que LAION souligne que de nombreux liens connus vers du matériel de maltraitance sexuelle d'enfants sont probablement inactifs, car les organismes concernés s'efforcent constamment de supprimer ce contenu d'Internet. Ce chiffre représente donc une limite supérieure probable, le nombre réel de liens fonctionnels vers de la MSE étant probablement inférieur. Re-LAION-5B contient actuellement 5,5 milliards de paires texte-image. Des tiers peuvent utiliser ces métadonnées pour nettoyer les dérivés existants de LAION-5B, générer des différences et supprimer tout contenu correspondant.

LAION espère que la publication de Re-LAION-5B permettra de définir une nouvelle norme de sécurité pour le nettoyage des jeux de données à l'échelle du web. Cette mise à jour fait suite aux critiques adressées au jeu de données LAION-5B original pour avoir inclus des images de patients. Parallèlement, LAION a également mentionné que la présence de MSE dans les jeux de données d'entraînement de l'IA est un problème extrêmement grave, certains systèmes entraînés étant même utilisés pour générer du contenu MSE.

Selon un rapport de l'Internet Watch Foundation (IWF), la quantité de matériel de maltraitance sexuelle d'enfants généré par l'IA a considérablement augmenté depuis l'automne 2023. Cette augmentation du contenu généré par l'IA non seulement complique les enquêtes sur les cas réels de maltraitance d'enfants, mais entraîne également une augmentation des rapports automatiques sur la MSE générés par les plateformes de médias sociaux, ce qui complique encore la situation.

Points clés :

🌟 Re-LAION-5B est le premier jeu de données à l'échelle du web au monde à nettoyer complètement les liens MSE dans un jeu de données de paires texte-image.

🔗 2 236 liens ont été supprimés, dont 1 008 liens connus provenant d'organisations de protection de l'enfance.

🛡️ LAION espère que ce nouveau jeu de données établira une nouvelle norme de sécurité pour le nettoyage des jeux de données à l'échelle du web.