O que é crawl budget e por que ele importa
Quando o Googlebot visita seu site, ele não rastreia um número ilimitado de páginas. O Google aloca para cada site um 'orçamento de rastreamento' — uma combinação do número de URLs que o Googlebot está disposto a rastrear e da frequência com que ele visita cada URL em um determinado período de tempo. Esse conceito é o que chamamos de crawl budget.
Para sites pequenos com dezenas ou poucas centenas de páginas, o crawl budget raramente é um problema. O Googlebot consegue rastrear e indexar todo o conteúdo relevante sem dificuldades. Mas para sites de e-commerce com milhares de SKUs, portais de notícias com décadas de arquivo, ou plataformas SaaS com URLs geradas dinamicamente, o crawl budget é um fator crítico de SEO técnico.
Se o Googlebot desperdiça seu orçamento de rastreamento em páginas de baixo valor — páginas com parâmetros de URL, duplicadas, com erros 404 ou em redirect chains desnecessários — ele pode não ter 'orçamento' suficiente para rastrear e indexar as páginas importantes do seu site. O resultado: páginas novas levam muito mais tempo para aparecer nos resultados de busca, e atualizações de conteúdo demoram a ser refletidas no índice do Google.
Os dois componentes do crawl budget
O Google é transparente sobre como calcula o crawl budget. Ele é determinado por dois fatores:
1. Crawl rate limit (limite de taxa de rastreamento)
O Googlebot tenta não sobrecarregar os servidores dos sites que rastreia. Se o seu servidor responde lentamente, retorna muitos erros 5xx, ou fica instável durante o rastreamento, o Google reduz automaticamente a taxa com que o Googlebot visita seu site. Melhorar a velocidade e estabilidade do servidor aumenta o crawl rate limit.
2. Crawl demand (demanda de rastreamento)
Quanto maior a popularidade e a atualização frequente de um site, maior é a demanda do Google por rastrear esse site. Sites com alta autoridade de domínio, muitos backlinks de qualidade e conteúdo constantemente atualizado recebem mais visitas do Googlebot. A demanda de rastreamento é, em grande parte, determinada pelo valor percebido do site pelo Google.
O crawl budget efetivo é essencialmente a interação entre esses dois componentes: quanto o Google quer rastrear vs. quanto seu servidor consegue suportar.
O que desperdiça crawl budget
Identificar e eliminar os desperdiçadores de crawl budget é o primeiro passo para otimizá-lo. Os principais problemas são:
Páginas com parâmetros de URL
Parâmetros de URL são um dos maiores desperdiçadores de crawl budget em e-commerces e portais de conteúdo. Quando um usuário aplica filtros de produto (cor, tamanho, preço), ordena resultados ou compartilha uma URL com parâmetros de sessão, são geradas novas URLs que muitas vezes têm conteúdo idêntico ou muito similar à página original.
Um e-commerce com 1.000 produtos e 5 filtros disponíveis pode gerar matematicamente dezenas de milhares de combinações de URL — todas apontando para variações do mesmo conteúdo. O Googlebot pode gastar enorme parte do crawl budget tentando rastrear todas essas combinações.
Conteúdo duplicado interno
Páginas com versões duplicadas — por exemplo, a mesma página acessível via HTTP e HTTPS, com e sem www, com e sem barra final na URL — multiplicam desnecessariamente o número de URLs que o Googlebot precisa visitar. Além de desperdiçar crawl budget, criam confusão sobre qual versão o Google deve indexar.
Redirect chains (cadeias de redirecionamento)
Quando o Googlebot segue um link e se depara com uma sequência de redirecionamentos (A redireciona para B, que redireciona para C, que redireciona para D), cada passo consome um 'salto' do orçamento de rastreamento. Redirect chains longas também aumentam o tempo de carregamento para os usuários, impactando a experiência e as métricas de Core Web Vitals.
Páginas de baixo valor
Páginas de resultados de busca interna, páginas de tag com poucos artigos, páginas de paginação profunda (página 50, 60, 70 de uma categoria), e páginas de arquivo de datas antigas em portais de notícias são exemplos de páginas que raramente contribuem para o negócio mas consomem crawl budget.
URLs com erros 404 e links quebrados
Links internos que apontam para páginas inexistentes forçam o Googlebot a visitar uma URL que retorna 404, consumindo budget sem nenhum benefício. Um site com muitos links quebrados internos está desperdiçando sistematicamente seu orçamento de rastreamento.
'Em auditorias de e-commerces com mais de 5.000 páginas, frequentemente encontramos que 30 a 50% das URLs rastreadas pelo Googlebot são páginas de baixo valor ou duplicadas. Corrigir isso costuma resultar em indexação mais rápida e crescimento de tráfego orgânico em poucas semanas.' — Equipe de SEO Técnico da Trilion
Como otimizar o crawl budget com robots.txt
O arquivo robots.txt é uma das ferramentas mais diretas para orientar o Googlebot sobre quais partes do site ele deve e não deve rastrear. A diretiva Disallow instrui o Googlebot a não rastrear determinadas URLs ou padrões de URLs.
Para e-commerces, recomendamos bloquear via robots.txt:
- URLs com parâmetros de filtro e ordenação:
Disallow: /*?cor=,Disallow: /*?ordem= - Páginas de resultado de busca interna:
Disallow: /busca/ - URLs de carrinho e checkout:
Disallow: /carrinho/,Disallow: /checkout/ - URLs com parâmetros de sessão ou rastreamento UTM internos
- Páginas de administração e painéis internos
Atenção importante: bloquear uma URL no robots.txt impede o rastreamento, mas não impede a indexação se houver links externos apontando para essa URL. Para páginas que você não quer que apareçam no índice do Google, use a meta tag noindex em combinação com o robots.txt.
Como otimizar o crawl budget com sitemaps XML
O sitemap XML é o complemento do robots.txt: enquanto o robots.txt diz ao Google o que NÃO rastrear, o sitemap diz ao Google o que DEVE ser rastreado e indexado prioritariamente.
Para sites grandes, algumas práticas fundamentais:
- Incluir apenas URLs indexáveis: O sitemap deve conter somente páginas com status 200, sem noindex, sem canonical apontando para outra URL. Incluir URLs redirecionadas ou com erros no sitemap é um desperdício de sinal.
- Usar lastmod com precisão: O atributo
lastmodinforma ao Google quando a página foi modificada pela última vez. Quando usado com precisão, ajuda o Googlebot a priorizar o rastreamento de páginas recentemente atualizadas. Não use lastmod com a data de hoje em todas as páginas — isso elimina o sinal. - Dividir sitemaps grandes: Sites com mais de 50.000 URLs devem usar um sitemap index que aponta para múltiplos sitemaps menores, segmentados por tipo de página (produtos, categorias, posts de blog).
- Submeter sitemaps atualizados regularmente: Para sites de e-commerce ou portais de conteúdo, automatize a geração e submissão do sitemap para garantir que novas páginas sejam submetidas ao Google Search Console rapidamente.
Canonicals como ferramenta de crawl budget
Além de resolver problemas de conteúdo duplicado, a meta tag canonical tem impacto direto no crawl budget. Quando o Google encontra múltiplas URLs com conteúdo similar e uma delas tem canonical apontando para a URL principal, ele aprende que pode priorizar o rastreamento da URL canonical e visitar as variantes com menor frequência.
Para e-commerces com filtros e facetas de navegação, a combinação de:
- Canonical nas páginas de faceta apontando para a página de categoria principal
- Parâmetros bloqueados via robots.txt para os mais problemáticos
- Google Search Console configurado para ignorar parâmetros específicos
... é a estratégia mais eficaz para controlar o desperdício de crawl budget sem sacrificar a experiência do usuário nos filtros.
Ferramentas para monitorar frequência de rastreamento
Google Search Console — Relatório de rastreamento
O GSC oferece um relatório detalhado sobre como o Googlebot está rastreando seu site. Em 'Configurações' > 'Rastreamento', você pode ver:
- Número de páginas rastreadas por dia nos últimos 90 dias
- Tempo de download médio das páginas
- Distribuição de respostas (200, 301, 404, 5xx)
Um alto percentual de respostas não-200 indica desperdício significativo de crawl budget.
Log de servidor
A análise de logs de servidor é a forma mais detalhada de entender o comportamento do Googlebot no seu site. Ferramentas como Screaming Frog Log Analyzer, Botify e JetOctopus permitem analisar os logs para identificar quais URLs o Googlebot está visitando com mais frequência, quais estão sendo ignoradas e se há padrões de desperdício.
Screaming Frog SEO Spider
O Screaming Frog é indispensável para mapear todas as URLs de um site grande, identificar redirect chains, encontrar links quebrados e visualizar a estrutura de links internos. É a ferramenta de referência para auditoria de crawl budget em sites de médio e grande porte.
'Para sites com mais de 10 mil páginas, otimizar o crawl budget deixa de ser uma questão técnica opcional e se torna uma prioridade estratégica. Cada URL desperdiçada é uma oportunidade de indexação perdida.' — Trilion, Agência de SEO Técnico
Como priorizar a otimização de crawl budget
A ordem de prioridade para um projeto de otimização de crawl budget deve ser:
- Alta prioridade: Corrigir redirect chains, eliminar erros 5xx, resolver duplicações por HTTPS/HTTP e www/não-www
- Média-alta prioridade: Bloquear parâmetros de URL problemáticos, implementar canonicals em páginas de faceta, limpar sitemap de URLs não-indexáveis
- Média prioridade: Remover ou consolidar páginas de baixo valor (tags, arquivos antigos, paginação profunda)
- Manutenção contínua: Monitorar relatório de rastreamento no GSC semanalmente, atualizar sitemap automaticamente, revisar robots.txt após mudanças estruturais no site
Impacto real no negócio
A otimização de crawl budget tem impacto direto em métricas de negócio:
- Velocidade de indexação de novos produtos: E-commerces com crawl budget otimizado indexam novos produtos em horas em vez de dias ou semanas.
- Tempo para recuperação após atualizações de conteúdo: Quando você atualiza preços, estoque ou descrições, as mudanças aparecem no índice do Google mais rapidamente.
- Crescimento de tráfego orgânico: Ao direcionar o Googlebot para as páginas de maior valor, mais dessas páginas aparecem nos resultados de busca e com rankings melhores.
A Trilion realiza auditorias completas de crawl budget para e-commerces, portais de conteúdo e plataformas digitais de médio e grande porte. Se você suspeita que seu site está desperdiçando orçamento de rastreamento, entre em contato para uma análise técnica detalhada e um plano de ação priorizado.
Checklist de otimização de crawl budget
- Auditar logs de servidor para identificar padrões de rastreamento do Googlebot
- Verificar relatório de rastreamento no Google Search Console
- Mapear todas as redirect chains e corrigir para redirecionamentos diretos
- Identificar e corrigir links internos quebrados (404)
- Configurar robots.txt para bloquear parâmetros de URL problemáticos
- Implementar canonicals em páginas de faceta e filtros de e-commerce
- Limpar sitemap XML para incluir apenas URLs 200 e indexáveis
- Ativar lastmod com datas precisas no sitemap
- Monitorar volume de páginas rastreadas mensalmente no GSC
- Revisar robots.txt e sitemap após grandes mudanças estruturais no site





