A instituição de pesquisa alemã LAION, criadora dos dados usados para treinar o Stable Diffusion e outros modelos de IA generativa, lançou um novo conjunto de dados, alegando que este foi "completamente limpo de links conhecidos de material de abuso sexual infantil (CSAM)."

O novo conjunto de dados, Re-LAION-5B, é na verdade um relançamento do antigo LAION-5B, mas com "correções" implementadas com base em recomendações da organização sem fins lucrativos Internet Observatory Foundation, Human Rights Watch, Canadian Centre for Child Protection e o agora extinto Stanford Internet Observatory. Estão disponíveis duas versões para download: Re-LAION-5B Research e Re-LAION-5B Research-Safe (com conteúdo NSFW adicional removido). A LAION afirma que ambas as versões filtraram milhares de links conhecidos (e "potenciais") de CSAM.

A LAION escreveu em um post de blog: "Desde o início, a LAION se comprometeu a remover conteúdo ilegal de seus conjuntos de dados e tomou medidas apropriadas para atingir esse objetivo desde o início." "A LAION segue estritamente o princípio de que o conteúdo ilegal é removido assim que detectado."

É importante notar que os conjuntos de dados da LAION não contêm imagens, e nunca contiveram. Em vez disso, são índices de links de imagens e textos alternativos compilados pela LAION, todos provenientes de outro conjunto de dados – o Common Crawl, que contém sites e páginas da web rastreadas.

Inteligência Artificial Braço Robótico IA (6)

Nota da imagem: Imagem gerada por IA, provedor de serviços de licenciamento de imagens Midjourney

O lançamento do Re-LAION-5B ocorreu após uma investigação do Stanford Internet Observatory em dezembro de 2023, que descobriu que o LAION-5B (especialmente um subconjunto chamado LAION-5B400M) continha pelo menos 1.679 links para imagens ilegais coletadas de postagens de mídia social e sites populares de conteúdo adulto. De acordo com o relatório, o 400M também continha links para "diversos conteúdos impróprios", incluindo imagens pornográficas, difamação racista e estereótipos sociais prejudiciais.

Embora os coautores da Universidade de Stanford do relatório tenham apontado que a remoção de conteúdo incriminador seria difícil e que a presença de CSAM não afetaria necessariamente a saída dos modelos treinados no conjunto de dados, a LAION disse que tiraria o LAION-5B do ar temporariamente.

O relatório de Stanford recomendou que os modelos treinados no LAION-5B "devem ser desativados e sua distribuição interrompida sempre que possível". Talvez relacionado a isso, a startup de IA Runway recentemente removeu seu modelo Stable Diffusion 1.5 da plataforma de hospedagem de IA Hugging Face; entramos em contato com a empresa para obter mais informações. (A Runway colaborou com a Stability AI, a empresa por trás do Stable Diffusion, em 2023 para ajudar a treinar o modelo Stable Diffusion original.)

O novo conjunto de dados Re-LAION-5B contém cerca de 5,5 bilhões de pares texto-imagem e é lançado sob a licença Apache 2.0. A LAION afirma que terceiros podem usar os metadados para limpar cópias existentes do LAION-5B removendo o conteúdo ilegal correspondente.

A LAION destaca que seu conjunto de dados é para fins de pesquisa, não comerciais. Mas, se a história serve de guia, isso não impedirá algumas organizações. Além da Stability AI, o Google também usou o conjunto de dados LAION para treinar seus modelos de geração de imagens.

A LAION continua no post: "Após a correspondência com a lista de links e hashes de imagens fornecida por nossos parceiros, um total de 2.236 links [apontando para provável CSAM] foram removidos." "Esses links também incluíam os 1.008 links encontrados no relatório do Stanford Internet Observatory de dezembro de 2023... Instamos veementemente todos os laboratórios e organizações de pesquisa que ainda estão usando o antigo LAION-5B a migrar para o conjunto de dados Re-LAION-5B o mais rápido possível."