PR SEO

Impulsione o SEO com robots.txt: melhore o desempenho do site com um controle mais inteligente dos crawlers

Publicado: 2025.01.08 Atualizado: 2026.03.12
Uma rede se espalhando pelo mundo

O controle de crawlers desempenha um papel importante tanto no SEO quanto no desempenho do site. Os crawlers dos mecanismos de busca percorrem um site e coletam informações para obter os dados necessários para exibir páginas nos resultados de busca. Ao controlar o comportamento dos crawlers de forma adequada, você pode melhorar os resultados de SEO e o desempenho do site.

A ferramenta central para isso é o robots.txt. Este artigo explica o robots.txt em profundidade, do básico ao uso prático, pontos de atenção e técnicas avançadas, para que você possa realmente dominá-lo.

The Complete SEO Guia [2025 Edition]: The Full Map to Higher Search Rankings
The Complete SEO Guia [2025 Edition]: The Full Map to Higher Search Rankings

Capítulo 1: noções básicas de robots.txt

Uma rede se espalhando pelo mundo

O que é robots.txt? Como funciona o controle de crawlers

Robots.txt é um arquivo de texto simples colocado no diretório raiz de um site. Ele informa aos crawlers quais partes do site podem rastrear e quais não devem rastrear.

Quando um crawler acessa um site, ele geralmente lê robots.txt primeiro e depois rastreia o site de acordo com essas instruções. Robots.txt é uma solicitação aos crawlers, não um bloqueio forçado, mas os principais mecanismos de busca o respeitam. No entanto, como crawlers maliciosos e alguns outros bots podem ignorar robots.txt, você nunca deve depender apenas dele para proteger informações confidenciais.

Onde colocar o robots.txt, formato do arquivo e conjunto de caracteres

Robots.txt deve ser colocado no diretório raiz do site, como https://example.com/robots.txt.

Ele não funcionará se você o colocar em um subdiretório. O nome do arquivo também precisa estar em minúsculas: robots.txt.

O formato do arquivo deve ser texto simples, e a codificação UTF-8 é fortemente recomendada. Se você usar outra codificação, os crawlers podem não interpretar o arquivo corretamente.

Sintaxe básica: User-agent, Disallow, Allow e detalhes das regras

Robots.txt é escrito com diretivas como User-agent, Disallow e Allow. Essas diretivas diferenciam maiúsculas de minúsculas e são escritas uma por linha.

  • User-agent: Especifica a qual crawler uma regra se aplica. Você pode nomear um crawler específico ou usar * para todos os crawlers. Ao declarar várias linhas User-agent, você pode definir regras diferentes para crawlers diferentes. Exemplos: User-agent: Googlebot, User-agent: Bingbot, User-agent: *.
  • Disallow: Especifica um caminho que não deve ser rastreado. Ele é escrito como um caminho relativo começando com uma barra. Uma linha Disallow vazia significa que tudo é permitido. Exemplos: Disallow: /private/, Disallow:.
  • Allow: Especifica um caminho que pode ser rastreado. É usado quando você quer permitir parte de uma área que foi bloqueada com Disallow. Nesse caso, uma regra Allow tem prioridade sobre Disallow. Exemplo: Disallow: /private/ e Allow: /private/public.html.

Como usar curingas (*) e ($): correspondência flexível de caminhos e uso avançado

O asterisco corresponde a qualquer sequência de caracteres. Por exemplo, Disallow: /*.pdf bloqueia todos os arquivos PDF, e Disallow: /images/*.jpg$ bloqueia apenas arquivos JPG no diretório /images/.

O cifrão corresponde ao fim de uma linha. Por exemplo, Disallow: /blog/$ bloqueia o acesso ao próprio diretório /blog/, mas ainda permite endereços como /blog/article1/.

Configurar Crawl-delay: reduzir a carga no servidor e seu efeito no Googlebot

Com a diretiva Crawl-delay, você pode especificar o intervalo entre requisições do crawler em segundos. Isso pode ajudar quando a carga do servidor é alta, mas o Googlebot não oferece suporte oficial a Crawl-delay. O Google recomendava antes configurações de taxa de rastreamento no Search Console, mas agora gerencia isso automaticamente, então normalmente não exige muita atenção.

Como o Google melhorou seu ajuste automático da taxa de rastreamento e, em linha com um esforço mais amplo para simplificar a experiência do usuário, o Google está encerrando o suporte à ferramenta de limitador de taxa de rastreamento no Search Console.

Fim planejado do suporte à ferramenta de limitador de taxa de rastreamento no Search Console

Ela ainda pode ter efeito em outros crawlers.

Especificar Sitemap: orientar os crawlers e lidar com vários sitemaps

Você pode especificar URLs de sitemap com a diretiva Sitemap. Isso ajuda os crawlers a entender a estrutura do site com mais facilidade e melhora a eficiência do rastreamento. Também é possível especificar vários sitemaps. Exemplos: Sitemap: https://example.com/sitemap.xml e Sitemap: https://example.com/sitemap_images.xml.

Impulsione o SEO: crie uma estrutura de site amigável ao Google com sitemap.xml

Capítulo 2: exemplos práticos de robots.txt

Um homem digitando em um laptop

Proteger páginas que exigem login: Disallow: /member/

Conteúdo que exige login, como páginas exclusivas para membros, geralmente deve ser excluído da indexação dos mecanismos de busca.

Ao usar robots.txt, você pode impedir que crawlers acessem essas páginas e reduzir rastreamento desperdiçado. Por exemplo, se o conteúdo exclusivo para membros estiver armazenado em /member/, escrever Disallow: /member/ bloqueia o acesso a todos os arquivos e subdiretórios nessa localização.

No entanto, robots.txt é apenas uma solicitação aos crawlers, portanto crawlers maliciosos podem ignorá-lo.

Informações realmente sensíveis devem ser protegidas com autenticação no servidor, não com robots.txt. Robots.txt deve ser tratado como um método auxiliar para limitar o acesso de crawlers e economizar recursos do servidor. Em muitos casos, é apropriado permitir acesso à própria página de login para que crawlers entendam que a autenticação é necessária.

Controlar URLs com parâmetros: Disallow: /*?page=*

URLs com parâmetros às vezes podem tornar o mesmo conteúdo acessível por várias URLs, o que pode ser tratado como conteúdo duplicado. Por exemplo, se você usar um parâmetro ?page= para paginação, pode acabar com páginas como example.com/blog?page=1 e example.com/blog?page=2 que têm URLs diferentes, mas quase o mesmo conteúdo.

Ao escrever Disallow: /*?page=*, você pode bloquear o acesso a toda URL que inclua o parâmetro page=. No entanto, isso pode remover todo o conteúdo paginado dos mecanismos de busca e prejudicar o SEO.

Uma abordagem melhor é usar uma tag canonical e indicar a URL canônica. Se todas as páginas paginadas apontarem para a primeira página, como example.com/blog, com uma tag canonical, você poderá evitar problemas de conteúdo duplicado e comunicar a página correta aos mecanismos de busca.

Usar robots.txt para controlar paginação deve ser tratado como último recurso quando não for possível implementar tags canonical.

Controlar um crawler específico: User-agent: YandexBot Disallow: /

Com a diretiva User-agent, você pode definir regras diferentes para crawlers diferentes. Se você escrever User-agent: YandexBot e depois Disallow: /, apenas o YandexBot será bloqueado em todo o site. Outros crawlers seguirão as regras definidas em outras seções User-agent, ou as regras sob User-agent: *.

Casos típicos em que você pode querer controlar um crawler específico incluem os seguintes.

  • Quando um crawler específico está colocando carga excessiva no servidor
  • Quando um crawler específico está ignorando robots.txt e causando problemas
  • Quando você quer ocultar conteúdo específico de uma região de crawlers de mecanismos de busca que não são usados nessa região

Nesses casos e em casos semelhantes, a diretiva User-agent é útil. Os nomes dos principais crawlers de mecanismos de busca podem ser confirmados na documentação oficial de cada mecanismo de busca.

Capítulo 3: cuidados e erros comuns em robots.txt

Um homem usando um smartphone

Robots.txt é uma ferramenta poderosa, mas configurações incorretas podem ter consequências sérias para um site. Este capítulo explica erros comuns e pontos de atenção para que você possa usar robots.txt com segurança e eficácia.

3.1 Danos de SEO por erros em robots.txt: desaparecer das buscas

O erro mais grave em robots.txt é bloquear acidentalmente páginas importantes contra rastreamento.

Se você bloquear páginas de produto ou de serviço, por exemplo, essas páginas podem sair do índice de busca e desaparecer dos resultados. Isso reduz diretamente o tráfego do site e pode prejudicar gravemente o SEO.

Sempre que alterar robots.txt, use a ferramenta de teste de robots.txt no Google Search Console para confirmar que apenas as páginas pretendidas estão bloqueadas. Depois da alteração, continue monitorando classificações e tráfego regularmente para detectar qualquer efeito indesejado.

3.2 O erro de usar Allow para páginas que você queria bloquear

A diretiva Allow deve ser usada apenas quando você quer permitir parte de uma área que foi bloqueada com Disallow. Por exemplo, se quiser bloquear /private/ mas permitir apenas /private/public.html, você usaria tanto Disallow: /private/ quanto Allow: /private/public.html.

Usar Allow sozinho em uma área que não foi bloqueada com Disallow não tem efeito. Crawlers geralmente presumem que toda página é acessível, a menos que tenha sido explicitamente bloqueada com Disallow.

3.3 Diferença entre maiúsculas e minúsculas: preste muita atenção

User-agent, Disallow, Allow e caminhos de URL diferenciam maiúsculas de minúsculas. Por exemplo, disallow: /images/ é tratado de forma diferente de Disallow: /images/ e não funcionará como esperado.

Ao escrever robots.txt, sempre use a capitalização correta e verifique cuidadosamente erros de digitação.

3.4 Diferenças no comportamento dos crawlers: lidar com crawlers maliciosos

Robots.txt funciona com crawlers de boa-fé, como Googlebot e Bingbot, mas crawlers maliciosos podem ignorá-lo completamente. Isso significa que robots.txt sozinho não consegue proteger informações sensíveis.

Informações realmente confidenciais devem ser protegidas com autenticação no servidor ou restrições de acesso. É preciso entender que robots.txt é apenas uma ferramenta para controlar crawlers cooperativos e não é suficiente como medida de segurança.

3.5 Robots.txt sozinho não oferece segurança

Como observado acima, robots.txt é insuficiente como medida de segurança. Qualquer pessoa pode ler o conteúdo de um arquivo robots.txt, então usuários maliciosos podem usá-lo como pista para encontrar áreas restritas.

Segurança real exige uma abordagem em camadas que combine vários métodos, incluindo proteção por senha, listas de controle de acesso e firewalls, não apenas robots.txt.

3.6 Comportamento inesperado pelo uso excessivo de curingas

Curingas como * e $ tornam a correspondência de caminhos mais flexível, mas usá-los em excesso pode bloquear páginas que você nunca pretendeu bloquear. Por exemplo, Disallow: /*image* bloquearia não apenas o diretório /images/, mas também uma URL como /article/my-image.jpg.

Ao usar curingas, verifique cuidadosamente todo o alcance do efeito e certifique-se de que não está bloqueando páginas sem querer.

3.7 Cache de robots.txt: atrasos até que alterações sejam refletidas

Mecanismos de busca armazenam robots.txt em cache, por isso as alterações nem sempre são refletidas imediatamente. Mesmo que você verifique com uma ferramenta de teste logo após editá-lo, o resultado ainda pode se basear na versão anterior.

No Google Search Console, você pode solicitar que robots.txt seja buscado novamente por meio do testador de robots.txt. Isso pode reduzir o atraso até que o cache seja atualizado e suas alterações sejam refletidas.

Seguindo esses cuidados e configurando robots.txt adequadamente, você pode melhorar o SEO e evitar riscos desnecessários.

Capítulo 4: ferramentas de criação de robots.txt e métodos de verificação

Um homem digitando

Este capítulo explica como criar, testar e revisar robots.txt com eficiência. Seguindo estes passos, você pode evitar erros indesejados e maximizar o desempenho do site.

4.1 Usar ferramentas de criação de robots.txt

Você pode escrever robots.txt manualmente, mas ferramentas online permitem fazer isso mais rápido e com menos erros. Essas ferramentas geram automaticamente um arquivo robots.txt quando você insere as diretivas necessárias, ajudando a reduzir erros de sintaxe e de regras.

Ferramentas representativas incluem as seguintes.

  • Testador de robots.txt do Google Search Console: Uma ferramenta integrada ao Search Console que pode criar, editar e testar robots.txt. Se você já usa o Search Console, esta costuma ser a escolha mais fácil.
  • Ferramentas de verificação de SEO: Algumas ferramentas de SEO incluem recursos de geração de robots.txt. Como podem ser usadas junto com outras funções de SEO, elas são convenientes ao otimizar um site de forma mais ampla.
  • Outros geradores online de robots.txt: Se você pesquisar na web por gerador de robots.txt, encontrará muitas ferramentas gratuitas. Elas são adequadas para criar um arquivo robots.txt simples.

A melhor ferramenta depende das suas necessidades e do tamanho do site.

4.2 Testar robots.txt no Google Search Console

Depois de criar robots.txt, você deve testá-lo para verificar se os crawlers o interpretam corretamente. O Google Search Console oferece uma ferramenta de teste de robots.txt que mostra se uma URL específica pode ser rastreada e se há erros no arquivo.

O processo de teste é o seguinte.

  1. Abra o Google Search Console e selecione a propriedade do site alvo.
  2. Escolha o testador de robots.txt no menu à esquerda.
  3. Insira a URL que deseja testar e clique no botão Testar.
  4. Revise se a URL pode ser rastreada e qual diretiva está sendo aplicada.

Sempre que alterar robots.txt, use esta ferramenta e confirme que o arquivo funciona exatamente como pretendido.

4.3 Revisar e corrigir robots.txt

Como robots.txt fica no diretório raiz de um site, você pode abri-lo diretamente no navegador, revisar seu conteúdo e alterá-lo se necessário. Por exemplo, acessar https://example.com/robots.txt exibirá o arquivo.

Ao fazer correções, abra robots.txt em um editor de texto, faça as alterações necessárias e envie-o ao servidor. Como os mecanismos de busca precisam atualizar o cache, pode levar algum tempo até que as mudanças sejam refletidas.

O testador de robots.txt no Google Search Console permite editar e testar ao mesmo tempo, tornando mais fácil iterar correções e verificações.

Seguindo estes passos, você pode manter robots.txt em estado ideal e melhorar tanto o SEO quanto o desempenho do site.

Capítulo 5: controle de crawlers além de robots.txt

Diferenças em relação à meta tag robots e como usar cada uma

A meta tag robots é usada para controlar crawlers em páginas individuais. Quando usada junto com robots.txt, ela permite um controle mais refinado. Noindex instrui mecanismos de busca a não indexar uma página, e nofollow instrui a não seguir links. Se você adicionar noindex a uma página que também foi bloqueada de rastreamento com robots.txt, isso pode ajudar a remover dos resultados de busca uma página que já foi indexada em alguns casos.

Usá-la junto com noindex e nofollow

Você pode especificar várias diretivas separadas por vírgulas, como noindex,follow.

Controle por meio do cabeçalho HTTP X-Robots-Tag

Ao usar X-Robots-Tag no cabeçalho da resposta HTTP, você também pode controlar o rastreamento de arquivos não HTML, como PDFs e imagens. Isso exige configuração no servidor.

Resumo

Robots.txt é uma ferramenta indispensável tanto para SEO quanto para desempenho do site.

Ao entender os pontos abordados neste artigo e configurar robots.txt corretamente, você pode extrair todo o potencial do seu site. É importante manter-se atualizado e continuar otimizando robots.txt ao longo do tempo.

Apêndice: exemplos de robots.txt, incluindo os avançados

  • Permita apenas certos tipos de arquivo para um crawler específico:

User-agent: Googlebot-Image Allow: /images/*.jpg Allow: /images/*.png Disallow: / User-agent: * Disallow: /images/

  • Reduza a velocidade de acesso para um crawler específico:

User-agent: AhrefsBot Crawl-delay: 10 User-agent: * Allow: /

Use estes padrões avançados para otimizar seu site e aproximá-lo do sucesso.