2024/07/04

Cloudflare facilita bloqueio de scrapers AI

Em resposta ao abuso na recolha de informação na web por empresas AI, a Cloudflare lança uma opção de bloqueio de bots e scapers AI.

A proliferação de modelos AI, sedentos da maior quantidade de dados possível, tem revelado que nem todas as empresas estão dispostas a seguir as regras de boas maneiras que se seguiam na web. Recentemente descobriu-se que a Perplexity AI ignora por completo os pedidos de não utilização de informação para AI, acedendo e copiando todos esses dados, e até usando scrapers que não divulga publicamente - dificultando o processo de os bloquear. Algo que talvez não seja surpresa, vindo de uma empresa que criou contas falsas para acumular a maior quantidade de dados do Twitter.

Ora, não se podendo assumir que as empresas sigam essas regras éticas, a Cloudflare avança com uma solução prática, aplicando um filtro de bloqueio a bots e scapers AI, que teoricamente impedirá que esses serviços AI possam aceder às páginas web que não desejam ser usadas para esse fim.
É curioso ver a mudança de atitude de certas empresas, quando se vêem do lado que convenientemente precisa de aceder a "toda a informação". O director de AI da Microsoft até veio dizer que se deve tratar tudo o que estiver visível na internet como sendo freeware, rapidamente ficando embrulhado num labirinto de contradições.

Parece ser inevitável que, à medida que mais e mais serviços AI vão sendo lançados, e com modelos cada vez mais poderosos que precisam de ainda maior quantidade de dados para serem treinados, se assistirá a uma tentativa de os proteger. Por algum motivo várias empresas já vão assegurando negócios milionários para garantir o acesso à informação de plataformas desejáveis como o Stack Overlow, Reddit, e outras. Enquanto isso, outras tentam seguir por caminhos bem diferentes, como a Meta, que tentou fazer passar a ideia de que os utilizadores tinham que aceitar que os seus dados fossem usados para treinar modelos AI, a não ser que paguem ou passem por processos trabalhosos para requisitar que isso não seja feito - mas com a Meta a manter a última palavra sobre se utilizaria os dados mesmo assim.

Para os utilizadores, na prática nada muda: há muito que se sabe que tudo o que for parar à internet será inevitavelmente usado para usos indevidos, quer isso seja publicamente admitido pelas empresas que o fazem, ou não.

Sem comentários:

Enviar um comentário (problemas a comentar?)