Parecendo comprovar que a entrada na era AI está a fazer colapsar todas as regras auto-impostas que eram habitualmente seguidas na web, também a Anthropic foi apanhada a ignorar por completo as condições de acesso a sites.
Recentemente, tivemos o caso da Perplexity AI ter sido apanhada a roubar dados de sites que proibíam expressamente a recolha de dados por bots AI. Agora, foi o CEO do iFixit, Kyle Wiens, que denunciou ter apanhado o crawler da Anthropic a fazer um milhão de acessos ao site, num único dia, apesar do site proibir a recolha de dados por bots AI sem autorização.
É certo que o robots.txt não é um limitador com validade legal, sendo algo que (pelo menos teoricamente), os serviços de pesquisa acediam em seguir de forma voluntária - e com as instruções a terem sido recentemente expandidas para englobar os bots AI. Mas, mesmo que os serviços AI escolham ignorar essas instruções, não podem escapar a ter que cumprir com os direitos de autor, não podendo usar os conteúdos dos sites sem autorização expressa para isso, a não ser que o site tenha indicações em contrário.Hey @AnthropicAI: I get you're hungry for data. Claude is really smart! But do you really need to hit our servers a million times in 24 hours?
— Kyle Wiens (@kwiens) July 24, 2024
You're not only taking our content without paying, you're tying up our devops resources. Not cool.
Não deixa de ser curioso que, em sentido inverso, os consumidores rapidamente sejam acusados de pirataria se ousarem aceder a qualquer tipo de conteúdos; mas quando são grandes empresas a desejar usar os conteúdos criados pelos consumidores, então aí argumentam que tudo o que está visível na web deve ser considerado de uso público gratuito (e foi um director da Microsoft que o disse).
Arrisco-me a dizer que não deverá ser a última vez que vemos casos como estes. E que, goste-se ou não, acabará por ser imprescindível que as empresas AI tenham que revelar detalhadamente quais foram as origens dos dados usados para treinar os seus modelos AI.
Sem comentários:
Enviar um comentário (problemas a comentar?)