2024/08/31

LAION lança conjunto de dados para treino de AI livre de imagens indevidas

A LAION lançou novo conjunto de dados para treinar modelos AI, agora limpos de imagens indevidas, como de abuso infantil, pornografia, e outras.

A LAION, a organização de pesquisa alemã responsável pelos dados usados para treinar modelos AI como o Stable Diffusion, lançou uma nova versão do seu conjunto de dados chamada Re-LAION-5B. Esta actualização surge após uma investigação ter revelado que o conjunto original, LAION-5B, incluía links para material de abuso sexual infantil (CSAM). O novo conjunto foi limpo seguindo recomendações de várias organizações, incluindo a Internet Watch Foundation e a Human Rights Watch.

O Re-LAION-5B é uma versão revista do conjunto original, agora disponível em duas versões: Re-LAION-5B Research e Re-LAION-5B Research-Safe. Esta última versão exclui também conteúdo explícito adicional como, imagens NSFW, referentes a racismo, e estereótipos sociais insultuosos. A LAION sublinha que os seus conjuntos de dados não contêm as imagens em si, mas sim links para as mesmas e para texto associado, originalmente obtidos do conjunto de dados Common Crawl.

A limpeza do Re-LAION-5B foi motivada por um relatório de Dezembro de 2023 do Stanford Internet Observatory, que descobriu que um subconjunto do LAION-5B continha 1.679 links para imagens ilegais e vários conteúdos inadequados. Após o relatório, a LAION retirou temporariamente o conjunto de dados original e agora lança esta versão limpa, recomendando que os modelos que usavam o anterior conjunto de dados sejam actualizados para o Re-LAION-5B o mais rapidamente possível.

A LAION relembra ainda que os seus conjuntos de dados são destinados apenas a fins de pesquisa. No entanto, empresas como a Google e a Stability AI já utilizaram estes dados para o treino dos seus modelos AI com fins comerciais. O novo conjunto de dados Re-LAION-5B, que contém cerca de 5,5 mil milhões imagens, está agora disponível sob uma licença Apache 2.0 e pode ser usado por terceiros em substiuição do conjunto original.

Sem comentários:

Enviar um comentário (problemas a comentar?)