2024/07/25

Anthropic também ignora robots.txt e rouba dados dos sites

O crawler ClaudeBot da Anthropic foi apanhado a fazer um milhão de acessos ao site iFixit em apenas 24 horas, apesar do site proibir o acesso a bots AI.

Parecendo comprovar que a entrada na era AI está a fazer colapsar todas as regras auto-impostas que eram habitualmente seguidas na web, também a Anthropic foi apanhada a ignorar por completo as condições de acesso a sites.

Recentemente, tivemos o caso da Perplexity AI ter sido apanhada a roubar dados de sites que proibíam expressamente a recolha de dados por bots AI. Agora, foi o CEO do iFixit, Kyle Wiens, que denunciou ter apanhado o crawler da Anthropic a fazer um milhão de acessos ao site, num único dia, apesar do site proibir a recolha de dados por bots AI sem autorização.
É certo que o robots.txt não é um limitador com validade legal, sendo algo que (pelo menos teoricamente), os serviços de pesquisa acediam em seguir de forma voluntária - e com as instruções a terem sido recentemente expandidas para englobar os bots AI. Mas, mesmo que os serviços AI escolham ignorar essas instruções, não podem escapar a ter que cumprir com os direitos de autor, não podendo usar os conteúdos dos sites sem autorização expressa para isso, a não ser que o site tenha indicações em contrário.

Não deixa de ser curioso que, em sentido inverso, os consumidores rapidamente sejam acusados de pirataria se ousarem aceder a qualquer tipo de conteúdos; mas quando são grandes empresas a desejar usar os conteúdos criados pelos consumidores, então aí argumentam que tudo o que está visível na web deve ser considerado de uso público gratuito (e foi um director da Microsoft que o disse).

Arrisco-me a dizer que não deverá ser a última vez que vemos casos como estes. E que, goste-se ou não, acabará por ser imprescindível que as empresas AI tenham que revelar detalhadamente quais foram as origens dos dados usados para treinar os seus modelos AI.

Sem comentários:

Enviar um comentário (problemas a comentar?)