Investigadores descobriram quase 12.000 chaves API e passwords válidas no Common Crawl, um arquivo utilizado no treino de modelos de inteligência artificial (LLMs).
Disponível gratuitamente desde 2008, o repositório Common Crawl é usado por empresas como a OpenAI, Google, Meta, Anthropic, e outras, durante o processo de treino dos seus modelos AI. A presença destes dados reforça as preocupações sobre a origem e segurança dos dados utilizados no treino destse modelos.
Os investigadores analisaram 400 terabytes de dados de 2.67 mil milhões de páginas web da versão de Dezembro de 2024 do Common Crawl. Encontraram chaves API de serviços Amazon Web Services (AWS), MailChimp e WalkScore, incluindo mais de 1.500 chaves MailChimp inseridas em código HTML e JavaScript. Estas credenciais poderiam ser exploradas para campanhas de phishing, roubo de identidade e extracção de dados. Uma única chave API apareceu em 57.029 páginas web de quase 2.000 subdomínios!
Embora os dados usados para treinar modelos de IA passem por processos de filtragem e limpeza, remover totalmente informações sensíveis é uma tarefa extremamente difícil. Os investigadores também encontraram webhooks do Slack expostos, permitindo que terceiros publiquem mensagens sem autorização. O problema principal parece estar nas más práticas de segurança de programadores e empresas, que colocam estas credenciais no código em vez de usar variáveis de ambiente seguras.
Muitas destas passwords e chaves já foram revogadas, mas é possível que muitas outras permaneçam válidas e possam ser usadas por hackers para abusar dos respectivos serviços.
Subscrever:
Enviar feedback (Atom)
Sem comentários:
Enviar um comentário (problemas a comentar?)