Notícias

Google abre código de seu “Web Crawler” depois de 20 anos!

Trabalhar com ‘softwares’ de código aberto é algo essencial para qualquer empresa hoje em dia, mesmo as empresas focadas em soluções de código fechado, eventualmente acabam usando algum tipo de tecnologia em toda a sua infra-estrutura que é aberta, mas muitas vezes, a necessidade de abrir o código vem de outro lugar.

Já não era sem tempo, mas o Google abriu o código fonte de mais um de seus projetos, o seu “Webcrawler” que faz a consulta no arquivo “Robots.txt” de todos os sites da internet.

Você pode encontrar mais informações sobre o anúncio no blog de Webmasters.

O que são Robots.txt?

O arquivo robots.txt é um arquivo público de qualquer site que especifica quais páginas de um blog ou site devem ser consideradas pelos mecanismos de busca, por exemplo: Você pode contar alguma página em seu site, como uma página de membros por exemplo, que você não queira que seja indexada da mesma forma que a sua home page ou as suas postagens, ou talvez você tenha arquivos, imagens, ou qualquer coisa do tipo, que não queira exibir para os robôs que vasculham a internet atrás de informações, tudo isso pode ser ajustado através de instruções colocadas nesse arquivo robots.txt. Você pode ver o exemplo do Diolinux aqui.

A grande questão é que, apesar de todo mundo usar esse recurso há muito tempo, ninguém realmente sabia como os “crawlers” do Google liam estas informações, o que acabava gerando eventuais problemas de configuração, exibindo o que era para ficar escondido do buscador e escondendo o que era para ser exibido, incluindo problemas de formatação e caracteres que os bots poderiam não conseguir ler, fazendo com que a galera que trabalha com SEO tivesse que buscar sempre testar opções até encontrar uma certa meio que “às cegas”.

Agora ficou mais fácil?

É possível dizer que sim, ficou realmente mais fácil, porém, na verdade o mecanismo simplesmente não mudou, ele só ficou mais transparente e simples de entender. A Google tem um tutorial bem interessante de detalha todas as sintaxes possíveis no arquivo robots.txt, você pode conferir aqui. A empresa também liberou no Github o código fonte da aplicação, juntamente com uma biblioteca e uma ferramenta de testes para validação de regras.

A vida de quem trabalha diretamente através da internet, com sites e blogs acabou de ficar um pouco mais fácil, ainda que tenha demorado “um tempão”, é mais uma coisa importante que se torna Open Source.

Faça parte de nossa comunidade e não perca nenhuma assunto do mundo da tecnologia, acesse o fórum Diolinux Plus, e fique por dentro das novidades.

Depois de testar nos conte o que você achou!

Até a próxima!


Viu algum erro ou gostaria de adicionar alguma sugestão a essa matéria? Colabore, clique aqui.

Diolinux Ofertas - Aproveite os melhores descontos em diversos produtos!