2024/06/24

Perplexity AI ignora regras de exclusão de conteúdos

O chatbot AI da Perplexity está a dar que falar, por tornar visível a suspeita de que muitos modelos AI usam a internet como bem entendem sem ligar às regras.

Os actuais modelos AI necessitam da maior quantidade possível de informação a que possam ter acesso, e nada melhor do que usar tudo o que existe na internet para esse fim, mesmo quando isso acaba por dar maus resultados (como usar conteúdos satíricos como factos). E agora temos um caso que demonstra que nem todos estão dispostos a seguir as "boas maneiras".

Nem todos os sites querem que os seus conteúdos sejam usados (gratuitamente) para treinar modelos AI. Como tal, e ao estilo do que no passado foi feito para os sites que não desejam que os seus conteúdos sejam considerados para os motores de pesquisa, estabeleceu-se uma forma de indicar que conteúdos podem ser acedidos e para que fim, usando um ficheiro chamado "robots.txt". Só que, ao estilo do tracking na web, isto é algo que depende inteiramente da boa vontade de quem tem esses serviços, já que pode ser facilmente ignorado: como agora ficou demonstrado que é o caso. A Wired publicou uma história sobre como o chatbot da Perplexity acedeu a um artigo a que supostamente não deveria ter acesso, e até copiando-o quase na íntegra.
O CEO da Perplexity defende-se e contra-ataca, por um lado dizendo que tecnicamente não é a sua empresa que faz o crawling das páginas mas sim uma empresa sub-contratada, e por outro dizendo que ignorar as indicações do robots.txt não é assim tão grave, uma vez que não existe nenhuma lei que diga que essas indicações tenham que ser cumpridas.

Depois ainda se queixam que a UE seja "burocrática" e coloque "entraves" às empresas tecnológicas, com coisas como o RGPD e DMA. Fica demonstrado que, quando se deixa as coisas no campo do "bom comportamento" e auto-regulamentação, é inevitável que surja alguém que perca o pudor e assume que essas regras não são para seguir.


Actualização: Pode não haver lei que impeça a Perplexity AI de aceder aos sites indevidamente, mas a Amazon poderá fazê-lo.

Sem comentários:

Enviar um comentário (problemas a comentar?)