2016/03/04

Disfarça o teu browser de Googlebot para aceder a sites com paywall


Se já se depararam com sites que ao fim de algumas visitar começam a bloquear os conteúdos, há um truque curioso que poderá fazer com que o mesmo vos volte a abrir as portas.

Nalguns casos, bastará fazer a limpeza dos cookies para o site respectivo (normalmente sites noticiosos) para poderem ver mais algumas notícias; mas se não se importarem de ter um pouco mais de trabalho, a solução poderá passar por disfarçar o vosso browser de Googlebot.

O Googlebot é o crawler usado pela Google para pesquisar e indexar os conteúdos na web, e ao qual estes sites dão - por norma - acesso ilimitado (penso que os sites de notícias já perceberam que só têm a perder se quiserem esconder conteúdos do Google). Embora sejam informações que estão escondidas do utilizador, cada browser envia a sua identificação sempre que visita um site, e que permite ao site saber diversa informação sobre o browser e dispositivo utilizado - o truque consiste em dizer que o nosso browser é um Googlebot.
  • Referrer: https://www.google.com/
  • User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html

Para o Firefox


Para os utilizadores de Firefox, será necessário instalar dois add-ons; o RefControl e o User Agent Switcher. Depois de instalados, terão que:
  1. Ir Tools > RefControl Options.
  2. Clicar em "add site", introduzir um nome de domínio para o site; seleccionar "custom action" e introduzir https://www.google.com/ como referrer.
  3. Repetir para todos os sites que se desejem aceder (tendo em conta que não é garantido que esta táctica funcione em todos eles).
  4. Fechar a janela de configuração.
  5. Ir a Tools > Default User Agent > Edit User Agents.
  6. Escolher New > User Agent, e substituir o texto no campo User Agent por:
    Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
    Dar.lhe o nome de Googlebot.
  7. Sair do menu
  8. Antes de aceder a estes sites, carregar no Alt, e seleccionar Default User Agent > Googlebot.

Para o Google Chrome


Para o Chrome o processo é idêntico, usando as extensões User Agent Switcher e Referer Control. No entanto, existe também uma possibilidade adicional, que pode ser um pouco mais complicada mas tem a vantagem de funcionar automaticamente para os sites desejados: a criação de uma extensão para o Chrome.

Felizmente, não é assim tão complicado como poderá parecer à primeira vista (especialmente para quem se sentir confortável com javascript) e há quem tenha explicado o processo completo de criação desta extensão, passo por passo, pelo que é só fazer copy-paste e seguir as instruções. (No final, até podem ficar inspirados para criarem novas extensões.)

O único detalhe é que para poderem usar uma extensão feita por vocês, terão que activar o "developer mode" no Chrome (em chrome://extensions/ ) e seleccionar "load unpacked extension" dizendo a pasta onde colocaram os ficheiros da extensão que criaram.

3 comentários:

  1. Prefiro impedir esse site the alojar cookies!

    ResponderEliminar
  2. Muito fácil de contornar (para quem faz gestão de websites/servidores), basta validar o IP do visitante.
    A menos que a Google tenha bots em redes da PT, Vodafone e outros ISP, o que me parece pouco provável :) :) :)

    ResponderEliminar
  3. Alguem testou esta opções para ver se funcionam, ou se os sites noticiosos (nomeadamente os nossos) estão a bloquear?

    ResponderEliminar