Como usar o robots.txt: guia completo para iniciantes!
Aprenda a usar o arquivo robots.txt no seu site para que o robô do Google e outros rastreadores não acessem determinados conteúdos e URLs.
PUBLICADO POR AYLTON INACIO
Tutoriais e Artigos > Google Search Console
Um arquivo robots.txt informa aos robôs de rastreamento (ex: Google Bot) quais pastas, arquivos e páginas do seu site não podem ser acessados e analisados.
Por padrão, um robô pode acessar e analisar todo o conteúdo do site para entender o que deve ser indexado e exibido nos resultados de pesquisa, mas será que isso é bom?
Se preferir, acesse "Como usar o robots.txt: guia completo para iniciantes!" no YouTube.
Imagine que seu site tenha páginas de autenticação, arquivos .pdf temporários, pasta para download de arquivos, conteúdo em desenvolvimento e teste, ou páginas que devem ser acessadas apenas através de links diretos, nesse caso você pode considerar em dizer para o Google não rastrear esses materiais usando o robots.txt, poupando assim recursos do seu servidor e limitando o que é importante.
É importante lembrar que uma página do seu site protegida por robots.txt ainda poderá ser indexada se estiver vinculada a outros sites e com isso aparecer nos resultados de pesquisa. Se você quiser bloquear a indexação e exibição de uma página no Google, deverá usar a metatag noindex ou cabeçalho HTTP, como ensino aqui mesmo no meu site.
Outro ponto importante é saber que o robots.txt bloqueia apenas o rastreamento de robôs e tem foco em resultado de pesquisa. Se você quiser, por exemplo, bloquear o acesso de determinada pasta do seu site para usuários reais, deverá colocar login e senha nas configurações no servidor.
Criando o robots.txt e exemplos de uso
O primeiro passo é abrir um editor de texto puro, como o bloco de notas do Windows, colocar todas as regras desejadas e salvar
o arquivo com o nome robots.txt. Depois suba o arquivo para a raiz do seu servidor e faça o teste acessando
seusite.com/robots.txt
para verificar a publicação e conteúdo.
Confira abaixo um arquivo robots.txt simples, com uma regra. Vale lembrar que o padrão
User-agent: Googlebot
Disallow: /download/
No exemplo anterior, o rastreador Googlebot não poderá rastrear seusite.com/download
nem qualquer subdiretório. Neste caso,
como o bloqueio é feito em um diretório inteiro, a "/" no final é obrigatória. Para bloquear páginas, siga o exemplo abaixo:
User-agent: Googlebot
Disallow: /pagina-bloqueada1.html
Disallow: /pagina-bloqueada2
O Google possui diversos robôs e você poderá criar regras diferentes para cada um. Por exemplo,
se quiser impedir que a imagem seusite.com/images/manual.jpg
apareça nos resultados de pesquisa do Google, use a regra
abaixo:
User-agent: Googlebot-Image
Disallow: /images/manual.jpg
O próximo exemplo bloqueia o rastreamento de dois diretórios (manuais e docs) para todos os robôs e libera o acesso para um subdiretório:
User-agent: *
Disallow: /manuais/
Disallow: /docs/
Allow: /docs/publico/
Neste próximo exemplo é feito o bloqueio do rastreamento de todos os arquivos do tipo .xls (Microsoft Excel) da pasta baixar para todos robôs.
User-agent: *
Disallow: /baixar/*.xls$
Você pode criar em apenas um arquivo robots.txt vários blocos de regras, sempre começando com a linha User-agent. Acesse a documentação oficial do Google para ver exemplos e lista de user agents (robôs).
Se você quiser exemplos reais de sites na internet que usam robots.txt, basta tentar algo como facebook.com/robots.txt
por exemplo.
Google Search Console e ferramenta de teste
O Google Search Console é uma ferramenta gratuita que serve para monitorar e avaliar a indexação do seu site no Google, e entre os diversos recursos disponíveis está o Teste de Robots.txt.
Após subir o robots.txt para a raiz do seu site, ele será detectado automaticamente pelo Google nos próximos rastreamentos, e o cadastro no GSC permite que você acompanhe a validação do arquivo, além de fazer testes e acelerar o processo de descobrimento e e atualizações.
Você pode digitar novas regras e testar em tempo real, mas as alterações só serão válidas quando você atualizar o arquivo robots.txt que está no servidor com as novas regras.
Bloqueando acesso de conteúdo para usuários
Como dito anteriormente, o robots.txt tem foco em robôs e exibição nos resultados de pesquisa. Se você quiser impedir que pessoas acessem o conteúdo de uma pasta, deverá configurar o servidor com negação de acesso ou autenticação com login e senha.
Imagine que seu site tenha uma tela para cadastro e envio de currículo que pode ser acessada em seusite.com/trabalhe-conosco
.
Ao enviar em anexo o currículo em .PDF, o usuário espera que seus dados fiquem disponíveis apenas para os recrutadores da empresa,
e assim deve ser feito. Sendo assim, faça o bloqueio no robots.txt do diretório que armazena os currículos e também coloque regras de acesso no servidor.
Se seu site tem o Cpanel como sistema para gerenciamento da hospedagem, acesse o serviço e procure pela opção Privacidade do Diretório. Depois é só selecionar o diretório desejado, proteger com senha e cadastrar os dados de acesso.
Se preferir e tiver conhecimento técnico, faça a configuração diretamente nos arquivos de configuração, (.htaccess) em servidor Apache, por exemplo.
Então é isso, eu espero que você tenha gostado desta publicação. Fique à vontade para compartilhar nas suas redes sociais para ajudar na divulgação e crescimento do site.
Aproveite para se inscrever no meu canal do YouTube e também na News do site pra ficar por dentro das novidades em artigos, tutoriais e cursos online.
Abraço e até a próxima!