Tutoriais

Como baixar sites completos com WGet ( ignorando robots.txt)

Robots.txt não são um problema

O WGET é um utilitário de download que acompanha a maioria das distribuições Linux, Ubuntu e Mint inclusive. Existem muitos parâmetros para ele, mas hoje vamos nos focar a mostrar como baixar sites inteiros para o seu computador para que você possa acessá-lo offline.

Um fato curioso deste método é que certa  vez Richard Stallman, pai do projeto GNU e que estará no 9º Fórum Goiano de Software livre nos dias 30 e 1º deste mês e do próximo, disse que não usava a internet online, ou seja, ele não acessava as páginas nos servidores, ele baixava o conteúdo que desejava ver para não ser rastreado. Mais uma das peculiaridades de Mr. Stallmam.

Como baixar um site usando o WGET

Basicamente qualquer site pode ser baixado usando o modelo

wget www.nomedosite.com.br

Se você quiser definir qual pasta você quiser salvar faça assim, colocando o diretório no final:

wget www.nomedosite.com.br /home/usuario/Downloads 

Ok, mas vamos mais além, graças a um arquivo chamado Robots.txt os webmasters, se é que podemos usar esta palavra ainda, podem definir qual o conteudo será acessado pelos visitantes ou indexado pelos motores de busca como o Google.

Este recurso é útil quando você tiver informações no site que não podem ser abertas a qualquer um, como é o caso de bancos por exemplo. Mas esta não é uma estratégia muito segura o ideal é criptografar tudo além de proteger com o arquivo robots.txt.

Se  você usar o comando:

wget -r -erobots=off www.nomedosite.com.br

Você conseguirá baixar todo o conteúdo do site independentemente das limitações impostas no robots.txt.

Bom senso é válido aqui, não vá querer dar uma cracker ( lammer ) e baixar coisas de um site privado ( sei que você deve estar coçando os dedos ), mas porque não? 

Crime realmente não é, você pode baixar qualquer página da internet para o seu computador, salvo raras exceções, mas ao ignorar a configuração dos robots você irá baixar muito material para o seu HD, vai lotá-lo de porcaria mesmo. Para se ter uma ideia estava eu visitando as ferramentas para webmasters do Google e descobri que todo conteúdo armazenado do Diolinux beira a marca de 1 TB.

Use com sabedoria by Mestre Yoda.

Até a próxima dica.

Diolinux Ofertas - Aproveite os melhores descontos em diversos produtos!