2025/11/19

Cloudflare explica falha que deixou ChatGPT e X offline

A Cloudflare já veio explicar o que provocou a falha que deixou o ChatGPT, X, e muitos outros serviços, inacessíveis.

A Cloudflare publicou uma explicação detalhada sobre o que classificou como o seu "pior apagão desde 2019". O incidente, que deixou inúmeros sites populares inacessíveis durante várias horas - incluindo serviços como X, ChatGPT e até o Downdetector - foi provocado por um erro no sistema de gestão de bots da empresa.

Responsável por encaminhar cerca de 20% de todo o tráfego web mundial, a Cloudflare funciona como uma das principais camadas de protecção da internet, distribuindo carga e combatendo ataques DDoS. Contudo, na terça-feira, uma falha interna acabou por provocar o efeito oposto: sites protegidos por determinadas regras do seu módulo de Bot Management começaram a bloquear pedidos legítimos, criando um apagão generalizado que foi rapidamente comparado aos recentes incidentes de grande escala na Azure e AWS.

O erro que desencadeou o colapso

Segundo o CEO Matthew Prince, tudo começou com uma alteração inesperada no comportamento de consultas feitas à base de dados ClickHouse, responsável por gerar o ficheiro de configuração utilizado pelo sistema de machine learning que avalia e classifica pedidos automatizados. Esse ficheiro é actualizado com grande frequência e inclui centenas de regras que ajudam o modelo a distinguir tráfego humano de bots. Contudo, um ajuste no sistema de permissões criou uma situação inesperada: a consulta começou a duplicar linhas de dados, fazendo com que o ficheiro de configuração crescesse de forma descontrolada, e acabando por ultrapassar os limites de memória. Quando isso aconteceu, o módulo que processa o tráfego entrou em colapso.
Na prática, todos os clientes da Cloudflare cujas regras dependiam do bot score começaram a bloquear tráfego autêntico. Apenas quem não utilizava estas regras passou praticamente incólume ao apagão.

Nem ataque, nem falha de DNS - apenas um erro interno

A Cloudflare destaca que não se tratou de nada relacionado com a sua nova tecnologia de "AI Labyrinth", que usa AI para confundir crawlers que ignoram regras de exclusão, nem com DNS (que tinha sido a suspeita inicial), nem devido a ataques externos. A origem foi simplesmente um erro de configuração, mas que acabou por ter consequências devastadoras.

A empresa diz já ter delineado novas medidas para impedir que o problema se repita, embora admita que a crescente centralização da internet em poucos fornecedores de infraestrutura torna inevitável que uma qualquer falha num destes serviços acabem por ter impacto cada vez maior a nível global.

Sem comentários:

Enviar um comentário (problemas a comentar?)