L'institut de recherche allemand LAION, à l'origine des données utilisées pour entraîner Stable Diffusion et d'autres modèles d'IA générative, a publié un nouveau jeu de données, affirmant qu'il avait été « entièrement nettoyé des liens connus de matériel d'abus sexuel sur des enfants (CSAM) ».

Le nouveau jeu de données, Re-LAION-5B, est en réalité une republication de l'ancien jeu de données LAION-5B, mais avec des « corrections » mises en œuvre suite aux recommandations de l'organisation à but non lucratif Internet Observatory Foundation, Human Rights Watch, du Centre canadien de protection de l'enfance et de l'ancienne Internet Observatory de Stanford. Deux versions sont disponibles au téléchargement : Re-LAION-5B Research et Re-LAION-5B Research-Safe (où du contenu NSFW supplémentaire a également été supprimé). LAION indique que les deux versions ont filtré des milliers de liens CSAM connus (et « potentiels »).

LAION écrit dans un article de blog : « Dès le départ, LAION s'est engagé à supprimer le contenu illégal de ses jeux de données et a mis en place dès le début les mesures appropriées pour atteindre cet objectif. » « LAION adhère strictement au principe que le contenu illégal est supprimé dès sa découverte. »

Il est important de noter que les jeux de données de LAION ne contiennent pas d'images, et ne les ont jamais contenus. Ce sont plutôt des index de liens d'images et de textes alternatifs d'images compilés par LAION, tous provenant d'un autre jeu de données : Common Crawl, qui contient des sites web et des pages web collectés.

Intelligence artificielle, bras robotique, IA (6)

Source : Image générée par IA, fournisseur de services d'autorisation d'images Midjourney

La publication de Re-LAION-5B fait suite à une enquête menée en décembre 2023 par l'Internet Observatory de Stanford, qui a révélé que LAION-5B (en particulier un sous-ensemble appelé LAION-5B400M) contenait au moins 1 679 liens vers des images illégales récupérées sur des publications de médias sociaux et des sites Web pour adultes populaires. Selon le rapport, le 400M contenait également des liens vers « divers contenus inappropriés », notamment des images pornographiques, des diffamations racistes et des stéréotypes sociaux nuisibles.

Bien que les co-auteurs de l'université de Stanford du rapport aient indiqué que la suppression du contenu illicite serait difficile et que la présence de CSAM n'affecterait pas nécessairement la sortie des modèles entraînés sur le jeu de données, LAION a déclaré qu'il retirerait temporairement LAION-5B.

Le rapport de Stanford a recommandé que les modèles entraînés sur LAION-5B « soient abandonnés et leur distribution interrompue si possible ». Peut-être en lien avec cela, la start-up d'IA Runway a récemment retiré son modèle Stable Diffusion 1.5 de la plateforme d'hébergement d'IA Hugging Face ; nous avons contacté la société pour obtenir plus d'informations. (Runway a collaboré en 2023 avec Stability AI, la société à l'origine de Stable Diffusion, pour aider à entraîner le modèle Stable Diffusion original.)

Le nouveau jeu de données Re-LAION-5B contient environ 5,5 milliards de paires texte-image et est publié sous licence Apache 2.0. LAION indique que des tiers peuvent utiliser les métadonnées pour nettoyer les copies existantes de LAION-5B en supprimant le contenu illicite correspondant.

LAION souligne que son jeu de données est destiné à la recherche et non à des fins commerciales. Mais si l'histoire est un indicateur, cela n'empêchera pas certaines organisations. Outre Stability AI, Google a également utilisé le jeu de données LAION pour entraîner ses modèles de génération d'images.

LAION poursuit dans son article : « Après avoir fait correspondre les liens et les hachages d'images fournis par nos partenaires, un total de 2 236 liens [pointant vers du CSAM présumé] ont été supprimés. » « Ces liens incluaient également les 1 008 liens trouvés dans le rapport de décembre 2023 de l'Internet Observatory de Stanford… Nous exhortons vivement tous les laboratoires de recherche et les organisations qui utilisent encore l'ancien LAION-5B à migrer dès que possible vers le jeu de données Re-LAION-5B. »