2019/07/02

Google quer standard para o robots.txt na net


O ficheiro robots.txt é parte integrante da web, mas curiosamente não é definido por nenhum standard; coisa que a Google quer alterar, e para o qual disponibilizou o seu interpretador como open-source.

Motores de pesquisa como o da Google estão constantemente a percorrer a web em busca de todas as páginas que consigam encontrar para as adicionar aos seus registos. Mas por vezes há necessidade de excluir links ou secções de sites que não fazem sentido serem recolhidos para este efeito, e por isso nasceu o ficheiro robots.txt.

O ficheiro robots.txt permite aos webmasters dizerem aos motores de pesquisa que partes do seu site não deverão ser analisados; mas o mais caricato é que embora se tenha tornado em algo comum e disseminado por praticamente todos os sites, não existe um standard real a definir o seu formato e estrutura. É algo que a Google espera mudar, propondo a criação de um standard para o robots.txt que permite uniformizar a sua utilização, e para isso disponibiliza o seu próprio parser como open-source.

Com esta medida espera-se reduzir o número de casos atípicos que possam existir - por exemplo, o que fazer no caso de algum site ter um ficheiro robots.txt com centenas de megabytes; ou com palavras mal-escritas - e dar ao robots.txt a atenção que já deveria ter tido desde o início.

Dito isto, há que continuar a ter em consideração que acatar as regras de exclusão definidas no ficheiro robots.txt continua a ser algo feito de forma completamente voluntária pelos crawlers que percorrem a web. Nada impede que existam crawlers que os ignorem e continuem a percorrer todos os links de todos os sites que encontram, ignorando as regras definidas pelos webmasters.

Sem comentários:

Enviar um comentário (problemas a comentar?)