WGET

O WGET é um utilitário de download que acompanha a maioria das distribuições LinuxUbuntu e Mint inclusive. Existem muitos parâmetros para ele, mas hoje vamos nos focar a mostrar como baixar sites inteiros para o seu computador para que você possa acessá-lo offline.
Um fato curioso deste método é que certa  vez Richard Stallman, pai do projeto GNU e que estará no 9º Fórum Goiano de Software livre nos dias 30 e 1º deste mês e do próximo, disse que não usava a internet online, ou seja, ele não acessava as páginas nos servidores, ele baixava o conteúdo que desejava ver para não ser rastreado. Mais uma das peculiaridades de Mr. Stallmam.
Como baixar um site usando o WGET
Basicamente qualquer site pode ser baixado usando o modelo

wget www.nomedosite.com.br
Se você quiser definir qual pasta você quiser salvar faça assim, colocando o diretório no final:


wget www.nomedosite.com.br /home/usuario/Downloads 
Ok, mas vamos mais além, graças a um arquivo chamado Robots.txt os webmasters, se é que podemos usar esta palavra ainda, podem definir qual o conteudo será acessado pelos visitantes ou indexado pelos motores de busca como o Google.
Este recurso é útil quando você tiver informações no site que não podem ser abertas a qualquer um, como é o caso de bancos por exemplo. Mas esta não é uma estratégia muito segura o ideal é criptografar tudo além de proteger com o arquivo robots.txt.

Se  você usar o comando:


wget -r -erobots=off www.nomedosite.com.br
Você conseguirá baixar todo o conteúdo do site independentemente das limitações impostas no robots.txt.
Bom senso é válido aqui, não vá querer dar uma cracker ( lammer ) e baixar coisas de um site privado ( sei que você deve estar coçando os dedos ), mas porque não? 
Crime realmente não é, você pode baixar qualquer página da internet para o seu computador, salvo raras exceções, mas ao ignorar a configuração dos robots você irá baixar muito material para o seu HD, vai lotá-lo de porcaria mesmo. Para se ter uma ideia estava eu visitando as ferramentas para webmasters do Google e descobri que todo conteúdo armazenado do Diolinux beira a marca de 1 TB.
Use com sabedoria by Mestre Yoda.
Até a próxima dica.


CREDITOS


http://www.diolinux.com.br/2012/11/como-baixar-sites-completos-com-wget.html#sthash.5QOJWWtm.dpuf


Comentários

Postagens mais visitadas