Como usar o robots.txt: guia completo para iniciantes!

Aprenda a usar o arquivo robots.txt no seu site para que o robô do Google e outros rastreadores não acessem determinados conteúdos e URLs.

PUBLICADO POR AYLTON INACIO
Tutoriais e Artigos > Google Search Console

Um arquivo robots.txt informa aos robôs de rastreamento (ex: Google Bot) quais pastas, arquivos e páginas do seu site não podem ser acessados e analisados.

Por padrão, um robô pode acessar e analisar todo o conteúdo do site para entender o que deve ser indexado e exibido nos resultados de pesquisa, mas será que isso é bom?

Se preferir, acesse "Como usar o robots.txt: guia completo para iniciantes!" no YouTube.

Imagine que seu site tenha páginas de autenticação, arquivos .pdf temporários, pasta para download de arquivos, conteúdo em desenvolvimento e teste, ou páginas que devem ser acessadas apenas através de links diretos, nesse caso você pode considerar em dizer para o Google não rastrear esses materiais usando o robots.txt, poupando assim recursos do seu servidor e limitando o que é importante.

É importante lembrar que uma página do seu site protegida por robots.txt ainda poderá ser indexada se estiver vinculada a outros sites e com isso aparecer nos resultados de pesquisa. Se você quiser bloquear a indexação e exibição de uma página no Google, deverá usar a metatag noindex ou cabeçalho HTTP, como ensino aqui mesmo no meu site.

Outro ponto importante é saber que o robots.txt bloqueia apenas o rastreamento de robôs e tem foco em resultado de pesquisa. Se você quiser, por exemplo, bloquear o acesso de determinada pasta do seu site para usuários reais, deverá colocar login e senha nas configurações no servidor.

Criando o robots.txt e exemplos de uso

O primeiro passo é abrir um editor de texto puro, como o bloco de notas do Windows, colocar todas as regras desejadas e salvar o arquivo com o nome robots.txt. Depois suba o arquivo para a raiz do seu servidor e faça o teste acessando seusite.com/robots.txt para verificar a publicação e conteúdo.

Confira abaixo um arquivo robots.txt simples, com uma regra. Vale lembrar que o padrão

User-agent: Googlebot
Disallow: /download/

No exemplo anterior, o rastreador Googlebot não poderá rastrear seusite.com/download nem qualquer subdiretório. Neste caso, como o bloqueio é feito em um diretório inteiro, a "/" no final é obrigatória. Para bloquear páginas, siga o exemplo abaixo:

User-agent: Googlebot
Disallow: /pagina-bloqueada1.html
Disallow: /pagina-bloqueada2

O Google possui diversos robôs e você poderá criar regras diferentes para cada um. Por exemplo, se quiser impedir que a imagem seusite.com/images/manual.jpg apareça nos resultados de pesquisa do Google, use a regra abaixo:

User-agent: Googlebot-Image
Disallow: /images/manual.jpg

O próximo exemplo bloqueia o rastreamento de dois diretórios (manuais e docs) para todos os robôs e libera o acesso para um subdiretório:

User-agent: *
Disallow: /manuais/
Disallow: /docs/
Allow: /docs/publico/

Neste próximo exemplo é feito o bloqueio do rastreamento de todos os arquivos do tipo .xls (Microsoft Excel) da pasta baixar para todos robôs.

User-agent: *
Disallow: /baixar/*.xls$

Você pode criar em apenas um arquivo robots.txt vários blocos de regras, sempre começando com a linha User-agent. Acesse a documentação oficial do Google para ver exemplos e lista de user agents (robôs).

Se você quiser exemplos reais de sites na internet que usam robots.txt, basta tentar algo como facebook.com/robots.txt por exemplo.

Google Search Console e ferramenta de teste

O Google Search Console é uma ferramenta gratuita que serve para monitorar e avaliar a indexação do seu site no Google, e entre os diversos recursos disponíveis está o Teste de Robots.txt.

Após subir o robots.txt para a raiz do seu site, ele será detectado automaticamente pelo Google nos próximos rastreamentos, e o cadastro no GSC permite que você acompanhe a validação do arquivo, além de fazer testes e acelerar o processo de descobrimento e e atualizações.

Testando o robots.txt pelo Google Search Console

Você pode digitar novas regras e testar em tempo real, mas as alterações só serão válidas quando você atualizar o arquivo robots.txt que está no servidor com as novas regras.

Bloqueando acesso de conteúdo para usuários

Como dito anteriormente, o robots.txt tem foco em robôs e exibição nos resultados de pesquisa. Se você quiser impedir que pessoas acessem o conteúdo de uma pasta, deverá configurar o servidor com negação de acesso ou autenticação com login e senha.

Imagine que seu site tenha uma tela para cadastro e envio de currículo que pode ser acessada em seusite.com/trabalhe-conosco. Ao enviar em anexo o currículo em .PDF, o usuário espera que seus dados fiquem disponíveis apenas para os recrutadores da empresa, e assim deve ser feito. Sendo assim, faça o bloqueio no robots.txt do diretório que armazena os currículos e também coloque regras de acesso no servidor.

Se seu site tem o Cpanel como sistema para gerenciamento da hospedagem, acesse o serviço e procure pela opção Privacidade do Diretório. Depois é só selecionar o diretório desejado, proteger com senha e cadastrar os dados de acesso.

Protegendo um diretório com login e senha pelo cPanel

Se preferir e tiver conhecimento técnico, faça a configuração diretamente nos arquivos de configuração, (.htaccess) em servidor Apache, por exemplo.

Então é isso, eu espero que você tenha gostado desta publicação. Fique à vontade para compartilhar nas suas redes sociais para ajudar na divulgação e crescimento do site.

Aproveite para se inscrever no meu canal do YouTube e também na News do site pra ficar por dentro das novidades em artigos, tutoriais e cursos online.

Abraço e até a próxima!

Criando o robots.txt e exemplos de uso

Google Search Console e ferramenta de teste

Bloqueando acesso de conteúdo para usuários

Cursos de Google Analytics, Looker Data Studio, Search Console (SEO) e Web