Robots.txt: o guia definitivo para controlar o que o Google rastreia e indexa

Publicado
Robots.txt: o guia definitivo para controlar o que o Google rastreia e indexa
Publicado
24 de Janeiro de 2026
Autor
Trilion
Categoria
SEO-2
Compartilhar
LinkedInInstagramFacebookWhatsApp

O arquivo mais subestimado do SEO técnico

Existe um arquivo de texto simples que pode, com uma única linha mal escrita, impedir que o Google indexe todo o seu site. Esse arquivo chama-se robots.txt e está presente na raiz de praticamente todo site na internet. Apesar de sua aparente simplicidade, ele é responsável por alguns dos erros de SEO mais graves — e mais comuns — que existem.

Na Trilion, já auditamos sites de empresas de médio e grande porte onde o robots.txt bloqueava acidentalmente páginas de categoria inteiras, arquivos CSS e JavaScript essenciais para renderização, ou até o próprio diretório raiz do site. Em alguns casos, os problemas existiam há meses sem que ninguém soubesse.

Este guia vai te dar um domínio completo sobre o robots.txt: sintaxe, casos de uso, erros críticos a evitar, a diferença fundamental com a meta tag noindex, e como testar tudo usando o Google Search Console. Ao final, você vai encarar o robots.txt não como um arquivo técnico obscuro, mas como uma ferramenta estratégica de SEO.

O que é o robots.txt e como ele funciona

O robots.txt é um arquivo de texto simples localizado na raiz do seu domínio — sempre em https://seusite.com.br/robots.txt. Ele segue o Robots Exclusion Protocol, um padrão da indústria (não uma obrigação técnica) que indica a robôs de busca quais partes do site eles podem ou não rastrear.

A palavra-chave aqui é 'rastrear', não 'indexar'. Essa distinção é fundamental e será explorada em detalhes mais adiante.

Quando um bot como o Googlebot chega ao seu site, ele primeiro visita o robots.txt para entender as regras antes de começar a rastrear qualquer outra página. Se o arquivo não existir, o bot assume que pode rastrear tudo livremente.

É importante notar que o robots.txt é uma recomendação, não uma imposição técnica. Bots mal-intencionados simplesmente ignoram o arquivo. Para propósitos de SEO, porém, o Googlebot e os principais crawlers respeitam rigorosamente as diretivas.

Sintaxe do robots.txt: entendendo as diretivas

A sintaxe do robots.txt é relativamente simples, mas cada detalhe importa. Vamos ver os elementos fundamentais:

User-agent

O campo User-agent indica a qual robô as regras a seguir se aplicam. Você pode usar um asterisco para indicar todos os robôs, ou especificar robôs individuais:

User-agent: * — aplica as regras a todos os robôs
User-agent: Googlebot — aplica as regras apenas ao Google
User-agent: Bingbot — aplica as regras apenas ao Bing

Disallow

A diretiva Disallow indica caminhos que o robô não deve rastrear:

Disallow: /admin/ — bloqueia o rastreamento de tudo em /admin/
Disallow: / — bloqueia o rastreamento de TODO o site (erro gravíssimo!)
Disallow: /pagina-especifica.html — bloqueia apenas uma página específica

Allow

A diretiva Allow é usada para criar exceções dentro de um bloco bloqueado. Por exemplo, você pode bloquear um diretório inteiro, mas permitir uma subpasta específica:

Disallow: /produtos/
Allow: /produtos/lancamentos/

Sitemap

Você também pode (e deve) indicar a localização do seu XML sitemap no robots.txt:

Sitemap: https://seusite.com.br/sitemap.xml

Isso ajuda o Googlebot a descobrir o sitemap independente de você tê-lo submetido no Search Console.

Crawl-delay

Embora não seja suportado pelo Googlebot, alguns outros crawlers respeitam a diretiva Crawl-delay, que indica um atraso em segundos entre requisições. Para controlar a taxa de rastreamento do Google, você deve usar as configurações do Google Search Console, não o robots.txt.

Erros críticos que bloqueiam conteúdo por acidente

Agora vamos ao ponto mais importante: os erros que vemos com maior frequência em auditorias e que causam os danos mais sérios.

Erro 1: Disallow: / — bloquear o site inteiro

Este é o erro mais grave possível no robots.txt. Um simples arquivo com as linhas abaixo instrui o Googlebot a não rastrear absolutamente nada no seu site:

User-agent: *
Disallow: /

Esse erro acontece com mais frequência do que você imagina — especialmente em sites que ficaram em modo de desenvolvimento com esse robots.txt e foram publicados sem que a equipe lembrasse de alterar o arquivo. É também comum em migrações de plataforma (de WordPress para outro CMS, por exemplo) onde o robots.txt antigo é copiado sem revisão.

O sintoma: impressões e cliques no Search Console despencam de repente. As páginas desaparecem do índice do Google. Muitas vezes o erro só é identificado semanas depois, quando o dano já está feito.

Erro 2: Bloquear arquivos CSS e JavaScript

Uma prática antiga (e equivocada) era bloquear o rastreamento de arquivos CSS e JavaScript para 'economizar crawl budget'. O problema é que, sem acesso a esses arquivos, o Googlebot não consegue renderizar as páginas corretamente e pode entender o conteúdo de forma equivocada ou não indexar elementos importantes.

O Google explicitamente recomenda que todos os arquivos necessários para renderização sejam rastreáveis. Se você tiver regras como Disallow: /wp-content/ ou Disallow: /static/ ou Disallow: /assets/, revise com cuidado — você pode estar bloqueando recursos críticos.

Erro 3: Usar robots.txt para páginas que você quer 'ocultar' do Google

Muitos gestores de sites acreditam que adicionar uma URL ao robots.txt impede que ela apareça nos resultados de busca. Isso é um equívoco importante: bloquear o rastreamento não impede a indexação.

Se outra página ou site linkar para uma URL que está bloqueada no robots.txt, o Google pode ainda assim indexá-la — apenas sem ter acesso ao conteúdo completo. A URL pode aparecer nos resultados de busca com uma descrição vaga ou inexistente.

Para verdadeiramente impedir a indexação de uma página, você precisa da meta tag noindex — que será explicada na próxima seção.

Erro 4: Wildcards mal configurados

O robots.txt suporta o caractere * como wildcard em diretivas Disallow e Allow. Um uso incorreto pode bloquear muito mais do que o pretendido. Por exemplo:

Disallow: /*?* — bloqueia todas as URLs que contêm um parâmetro de query string. Parece razoável para evitar páginas duplicadas com parâmetros de tracking, mas pode bloquear URLs legítimas de paginação como /produtos/?pagina=2 ou filtros de busca interna importantes.

Erro 5: Espaços e caracteres incorretos

O robots.txt é extremamente sensível a formatação. Um espaço extra, uma linha em branco no lugar errado ou o uso de caracteres especiais pode fazer com que as regras sejam ignoradas ou interpretadas de forma incorreta pelos crawlers.

Quando usar robots.txt: casos de uso legítimos

O robots.txt tem usos estratégicos legítimos em SEO. Veja os principais cenários onde faz sentido usar:

  • Áreas de administração: Bloquear /admin/, /wp-admin/, /dashboard/ e similares. Essas páginas não têm valor de SEO e não deveriam ser rastreadas.
  • Sistemas internos: Páginas de login, painéis de clientes, áreas de checkout — conteúdo que existe por razões funcionais, não para ranquear no Google.
  • Conteúdo duplicado técnico: Parâmetros de URL gerados por sistemas de analytics ou filtros que criam duplicatas sem valor de SEO, como ?utm_source=, ?session_id= etc.
  • Arquivos de sistema: Diretórios como /cgi-bin/, /.git/, /logs/.
  • Gerenciamento de crawl budget: Para sites muito grandes (dezenas de milhares de páginas), bloquear seções de baixo valor pode direcionar o crawl budget para o conteúdo que importa — mas isso deve ser feito com muita cautela.

A diferença fundamental entre robots.txt e noindex

Essa é a confusão mais comum em SEO técnico e merece atenção especial. Veja a distinção clara:

robots.txt com Disallow controla o rastreamento: impede que o bot visite a URL. Se o bot não rastreia a página, ele não pode ler as diretivas dentro da página — incluindo a meta tag noindex.

Meta tag noindex controla a indexação: permite que o bot visite a página, mas instrui a não incluí-la nos resultados de busca. O bot precisa rastrear a página para ler essa instrução.

A consequência prática mais importante: se você colocar uma página no robots.txt com Disallow, o Google pode ainda assim indexar essa URL se encontrar links para ela em outros lugares — porque ele sabe que a URL existe, mas não tem acesso ao conteúdo.

Se você quer garantir que uma página NÃO apareça no Google, a solução correta é deixar o bot rastreá-la (sem Disallow no robots.txt) e adicionar a meta tag <meta name='robots' content='noindex'> no head da página.

'O robots.txt não é um escudo de privacidade — é um mapa de rastreamento. Para remover páginas do índice do Google, use noindex. Para economizar crawl budget, use robots.txt. Misturar os dois é a receita para problemas sérios.' — Equipe de SEO Técnico da Trilion

Como testar seu robots.txt no Google Search Console

O Google Search Console oferece uma ferramenta específica para testar o robots.txt chamada Testador de robots.txt (disponível em Configurações > Rastreadores). Veja como usá-la efetivamente:

Testando URLs específicas

A principal funcionalidade da ferramenta é testar se uma URL específica está sendo permitida ou bloqueada pelo robots.txt atual. Você insere a URL e escolhe o User-agent (Googlebot, Googlebot-Image etc.) para simular o comportamento do rastreador.

O resultado mostra claramente se a URL está 'Permitida' ou 'Bloqueada', e qual regra específica está causando o bloqueio. Isso é muito útil para diagnóstico de problemas.

Verificando a versão que o Google tem em cache

Uma armadilha frequente: você atualizou o robots.txt, mas o Google ainda usa uma versão antiga em cache. A ferramenta do Search Console mostra quando o robots.txt foi rastreado pela última vez. Se a data for antiga, você pode solicitar uma atualização.

Erros de sintaxe

A ferramenta também destaca erros de sintaxe no arquivo, como linhas mal formatadas ou diretivas não reconhecidas, facilitando a correção antes que causem problemas.

Robots.txt e crawl budget: a relação estratégica

Para sites com volumes grandes de páginas (mais de 10.000 URLs), o robots.txt pode ser usado estrategicamente para otimizar o crawl budget — o limite de páginas que o Googlebot rastreia por dia. Ao bloquear seções de baixo valor, você direciona mais recursos de rastreamento para as páginas que realmente importam.

Exemplos práticos de uso estratégico:

  • Bloquear páginas de 'tag' e 'autor' no WordPress que geram pouco valor de SEO
  • Bloquear versões de impressão de páginas (/imprimir/)
  • Bloquear resultados de busca interna do site
  • Bloquear páginas de ordenação e filtros que geram duplicatas (em conjunto com canonical tags para as páginas que o Google deve rastrear)

A Trilion realiza esse tipo de otimização como parte de auditorias técnicas completas para portais e e-commerces de grande escala, com resultados mensuráveis na velocidade de indexação de novos conteúdos.

Exemplo de robots.txt bem estruturado

Para contextualizar tudo que foi discutido, veja um exemplo de robots.txt bem estruturado para um site WordPress típico:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /xmlrpc.php
Disallow: /feed/
Disallow: /comments/
Disallow: /?s=
Allow: /wp-admin/admin-ajax.php

Sitemap: https://seusite.com.br/sitemap.xml

Note que /wp-admin/admin-ajax.php é explicitamente permitido — ele é necessário para o funcionamento de alguns plugins e temas e deve ser rastreável mesmo com /wp-admin/ bloqueado.

'Um robots.txt bem configurado é como um bom contrato: claro, sem ambiguidades, e revisado periodicamente. Um robots.txt mal configurado é um risco silencioso que pode custar meses de visibilidade orgânica.'

Checklist de revisão periódica do robots.txt

Recomendamos revisar o robots.txt em três momentos críticos: após qualquer migração ou reestruturação do site, após atualizações de plataforma ou CMS, e pelo menos uma vez por ano como parte de uma auditoria técnica de rotina.

  • O Disallow: / não existe em produção?
  • Arquivos CSS e JavaScript estão acessíveis ao Googlebot?
  • Áreas administrativas e sistemas internos estão bloqueados?
  • O sitemap está referenciado corretamente?
  • As regras de wildcard estão bloqueando apenas o que devem?
  • A versão que o Google tem em cache está atualizada?
  • Cada regra de Disallow tem uma justificativa clara?

Conclusão: trate o robots.txt com seriedade

O robots.txt é um arquivo pequeno com impacto potencialmente enorme. Tratá-lo como um detalhe técnico de pouca importância é um erro que a Trilion vê regularmente em auditorias — e que frequentemente está na raiz de quedas inexplicadas de tráfego orgânico.

Se você nunca revisou o robots.txt do seu site de forma aprofundada, reserve um tempo para fazê-lo agora. Use a ferramenta de teste do Google Search Console, verifique se recursos críticos estão acessíveis, e certifique-se de que a distinção entre Disallow e noindex está sendo aplicada corretamente em cada caso.

Precisa de uma auditoria técnica completa que inclua a revisão do robots.txt e todas as outras variáveis de SEO técnico? Entre em contato com a Trilion — nossa equipe especializada identifica problemas que as ferramentas automatizadas não capturam e entrega um plano de ação claro e priorizado.

#RobotsTxt #SEOTécnico #Googlebot #AuditoriaSEO #Trilion #SEO

Comunicação, Criatividade e Ação

Acreditamos que a alquimia de Retórica, Criatividade e variadas Habilidades humanas criam resultados incríveis.