A maioria das pessoas que usa a internet não entende realmente como ela funciona em essência, e por conta disso nem sequer considera usar ferramentas para baixar sites completos diretamente no computador para acessar mesmo quando não tiver conexão.
Para que baixar sites pela internet?
Se você já navegou um pouco mais a fundo na internet, deve ter ouvido falar do Internet Archive, um projeto sem fins lucrativos com a audaciosa missão de arquivar tudo o que já existiu na internet. Ainda que o projeto não seja perfeito e não consiga indexar realmente tudo, são mais de 800 bilhões de páginas disponíveis no projeto, com uma ferramenta de “máquina no tempo” que permite ver como eram os sites em momentos específicos do passado.
Estar online é uma coisa que a gente toma como certo hoje em dia, se você tem acesso constante a internet, talvez seja difícil até imaginar um mundo onde o problema seja você conseguir acessar informação na internet.
Segundo pesquisas recentes, um terço das pessoas no planeta ainda não tem acesso total à internet, e grande parte das pessoas que tem acesso, é por conexões ruins, ou pagam muito caro.
Baixar a internet para o seu computador não só é um exercício computacional divertido, mas também uma forma de preservar informação, dar acesso ao conhecimento a quem não tem uma boa conexão, além de ser simplesmente prático em algumas situações.
Muitos já se familiarizaram com ideias de salvar vídeo games antigos, filmes, séries ou livros para ficarem disponíveis offline, focando até mesmo na preservação do legado da cultura humana. Muito do nosso legado hoje é digital e não está em nenhum desses formatos, mas em sites da internet.
Ainda que nem todos os sites possam ser salvos, é possível fazer isso com os mais tradicionais de formas diferentes e melhor que isso, podem ser disponibilizados para consulta em uma rede local, como numa escola ou empresa.
Mas antes disso, você sabe como a internet funciona?
Para entender o que as ferramentas que conheceremos fazem, uma breve introdução sobre o funcionamento básico da internet. A internet nada mais é do que a conexão entre dois ou mais computadores, atualmente são milhões deles, provavelmente bilhões.
Existem várias formas deles trocarem informações entre si, mas uma das mais comuns é um dos computadores acessarem um site que está rodando em outro. Isso é o que chamado de esquema cliente/servidor, o cliente é você solicitando uma página, o servidor hospeda essa página na internet.
Imagine que você decidiu acessar o site do Diolinux no seu computador cliente, digitou no seu navegador diolinux.com.br. Do lado do servidor, o site só pode ser acessado porque armazena alguns arquivos que compõem o site.
Entre esses arquivos existe o índice, que entre outros nomes, recebe comumente o nome de index.html. Ele consegue dizer onde estão os outros arquivos que compõe o site, as imagens, os vídeos, os scripts, o logotipo, o texto.
Apesar da gente estar acostumado a acessar os sites usando navegadores como o Google Chrome, nada impede que você baixe esses arquivos para o seu PC e acesse eles localmente, basta salvar a página com a opção que aparece no menu acessado pelo botão direito do mouse.
Se a gente explorar os arquivos que baixamos, dá para ver que são vários diferentes que compõe o site. Existem muitas formas de baixar sites completos, mas fim das contas, o importante é ter o material acessível de forma organizada, aí que entram projetos como o Archive Box.
Utilizando o Archive Box
O ArchiveBox é um projeto open source que serve para armazenar cópias de sites completos no seu disco local. Ele é o mais dependente de terminal dentre as opções que mostraremos.
Primeiro você precisa de suporte a Python no sistema operacional, se você usa Windows, é algo que precisa instalar, depois, deve instalar o gestor de pacotes Python Pip, Tudo isso está bem explicado na documentação do projeto.
Depois basta criar uma pasta no sistema onde armazenemos os nossos sites baixados, que pode ter o nome de “archivebox” por exemplo. Agora utilize os comandos:
pip install archivebox
Isso instalará o software no computador, depois use o:
archivebox init
Esse comando transformará a pasta que a gente criou num repositório de websites arquivados, e agora a gente pode usar o ArchiveBox para armazenar alguma página. Como o ArchiveBox funciona como um servidor, além de ser operado via linha de comando, ele tem uma interface web, basta digitar:
archivebox server &
Esse & no final é coisa de Linux, ele fará com que processo iniciado pelo comando vá para o plano de fundo, liberando o terminal para qualquer outra tarefa. Se prestar atenção nas informações, ele vai te mostrar que dá para acessar o servidor por um certo endereço de IP e a porta 8000, quem já entende um pouco de redes sabe que 127.0.0.1 é também chamado de localhost, uma representação do seu próprio PC na rede.
Clicando no link ou digitando no navegador, vamos até uma página onde podemos fazer a captura de qualquer site.
O ArchiveBox consegue disponibilizar os sites salvos em diversos formatos, incluindo PDF e imagens, mas a parte interessante é a original. Se você quiser, todas as páginas que salvar podem ficar disponíveis para uma rede interna, o que é muito útil, especialmente no caso de uma escola, por exemplo.
KIWIX
Kiwix é uma fundação sem fins lucrativos para ajudar a levar internet para todas as pessoas, com um aplicativo que tem o mesmo nome com funcionalidades parecidas ao que temos no Archivebox.
Ele é muito versátil, tem aplicações para desktop, extensões para navegadores, versões para Raspberry Pi e para servidores, no caso do Linux, dá para baixar diretamente da loja de aplicativos da maioria das distros.
Assim que você abrir o aplicativo dele no seu PC, parecerá um navegador simplificado, isso porque ainda não temos nenhum conteúdo baixado para podermos acessar offline, para baixarmos algo, vamos até a sessão “browse”, onde escolhemos categorias e idiomas.
O português está disponível, mas assim como ocorre na internet regular, a maioria d s sites são em inglês, em nossos testes usamos o nosso idioma mesmo.
Achamos interessante que a versão 1.89 GB de Wikipédia tem apenas a introdução geral dos verbetes, enquanto a versão completa, tem 6.41 GB, a versão com 15GB também traz para a gente todas as imagens que existem no site.
Além disso, temos as sessões especiais dedicadas a algum assunto, como Filmes, Matemática, Futebol, Computador, e assim por diante. Para baixar um dos conteúdos, simplesmente clicamos em download e aguardamos.
Assim que tudo estiver baixado, podemos ir para “local files” na parte superior esquerda, e remover os filtros, colocando “all” para todos.
Abrindo a Wikipedia, por exemplo, reparamos que a busca é rápida, afinal, tudo está disponível localmente, sem precisar de acesso à internet.
Mas o Kiwix não para por aqui, ele tem vários aplicativos, então você pode usar ele no smartphone também. Ele ainda tem uma funcionalidade muito interessante, que facilita o acesso a qualquer dado que a gente tenha baixado, por outras pessoas numa mesma rede.
Se formos nos 3 pontos, temos a opção de iniciar um servidor local, isso permite compartilharmos facilmente os conteúdos offline com qualquer outro computador ou smartphone na rede, basta acessar o IP do servidor, ou do PC nesse caso, que temos os materiais.
Aqui podemos fazer pesquisas diversas e acessas os conteúdos como se estivéssemos online, inclusive clicando nos links e acessando páginas de referência.
O Kiwix ainda usa um tipo de arquivo especial, também open source, chamado ZIM, permitindo compartilhar os sites que você baixou. Um ZIM é um arquivo que pode ser aberto pelo aplicativo do Kiwix e tem todas as funcionalidades que vimos aqui, esses arquivos que a gente baixou da Wikipédia, do Ted Talks e tudo mais, são todos ZIMs disponíveis no repositório oficial.
Para baixar sites não listados, usemos o site “youzim.it”, onde basta colocar a URL do site que você quer salvar, diolinux.com.br, por exemplo, e mandar ele criar esse arquivo.
Ele não muito rápido, então é bom ter paciência, mas é completamente gratuito. Como sites muito grandes podem levar várias horas para serem compactados e transformados num arquivo .zim, o youzim.it permite cadastrar um e-mail para ser avisado quando o processo terminar.
Depois é só importar para o aplicativo, e ele aparecerá disponível como um conteúdo offline, assim como os outros materiais.
Webrecorder
A ideia é muito similar ao Archivebox e também pode ser implementado como ele, mas assim como o Kiwix, o Webrecorder pode ser usado como uma simples extensão de navegador também, e também é um projeto open source.
Basta adicionar a extensão ao seu navegador, ir até a algum site que você queira arquivar e mandar o Web recoder escanear ele, marcar a opção de autopilot pode ser interessante, assim ele já mexe na página sozinho para pegar todos os elementos, se for necessário. Depois é só a gente navegar pelos nossos arquivos baixados, temos até a data e a hora do snapshot por aqui.
Ainda que hospedar a internet inteira fosse requerer muito espaço em disco, mais do que qualquer pessoa comum poderia ter acesso, salvar páginas mais específicas e úteis para você e para a comunidade no seu entorno é uma tarefa bem mais simples com ferramentas como essas.
Self Hosting, o ato de você hospedar as suas próprias aplicações, é inclusive muito mais fácil do que você pensa. Já pensou rodar aplicativos que antes só funcionam com internet diretamente do seu PC?