Os actuais modelos AI necessitam da maior quantidade possível de informação a que possam ter acesso, e nada melhor do que usar tudo o que existe na internet para esse fim, mesmo quando isso acaba por dar maus resultados (como usar conteúdos satíricos como factos). E agora temos um caso que demonstra que nem todos estão dispostos a seguir as "boas maneiras".
Nem todos os sites querem que os seus conteúdos sejam usados (gratuitamente) para treinar modelos AI. Como tal, e ao estilo do que no passado foi feito para os sites que não desejam que os seus conteúdos sejam considerados para os motores de pesquisa, estabeleceu-se uma forma de indicar que conteúdos podem ser acedidos e para que fim, usando um ficheiro chamado "robots.txt". Só que, ao estilo do tracking na web, isto é algo que depende inteiramente da boa vontade de quem tem esses serviços, já que pode ser facilmente ignorado: como agora ficou demonstrado que é o caso. A Wired publicou uma história sobre como o chatbot da Perplexity acedeu a um artigo a que supostamente não deveria ter acesso, e até copiando-o quase na íntegra.
O CEO da Perplexity defende-se e contra-ataca, por um lado dizendo que tecnicamente não é a sua empresa que faz o crawling das páginas mas sim uma empresa sub-contratada, e por outro dizendo que ignorar as indicações do robots.txt não é assim tão grave, uma vez que não existe nenhuma lei que diga que essas indicações tenham que ser cumpridas.Perplexity’s CEO responds to claims they are ignoring robots.txt and crawling websites by saying it’s the vendor they use for crawling that’s does it not them and robots.txt isn’t a law anyway.
— Dare Obasanjo🐀 (@Carnage4Life) June 23, 2024
It’s interesting to watch AI companies break the social contracts the web is built on pic.twitter.com/HK1WQnLr4G
Depois ainda se queixam que a UE seja "burocrática" e coloque "entraves" às empresas tecnológicas, com coisas como o RGPD e DMA. Fica demonstrado que, quando se deixa as coisas no campo do "bom comportamento" e auto-regulamentação, é inevitável que surja alguém que perca o pudor e assume que essas regras não são para seguir.
Actualização: Pode não haver lei que impeça a Perplexity AI de aceder aos sites indevidamente, mas a Amazon poderá fazê-lo.
Sem comentários:
Enviar um comentário (problemas a comentar?)