[Investigação Ahrefs] O arquivo llms.txt ajuda na busca por IA? A realidade é que 97% "não são lidos"

@AhrefsJP
JAPONÊShá 2 dias · 01/07/2026
241K
24
6
0
9

TL;DR

A Ahrefs analisou 137.000 domínios para testar a eficácia do llms.txt na busca por IA. Eles descobriram que 97% dos arquivos nunca são lidos, com a maior parte do tráfego vindo de agentes de codificação, e não de bots de busca.

"Instalar o llms.txt facilitará que a IA cite seu site."

Acreditando nessa afirmação, muitos sites já publicaram arquivos llms.txt. No entanto, após a equipe do Ahrefs analisar logs de servidor de 137.000 domínios, descobriu-se que 97% dos arquivos nunca foram lidos, nem uma única vez.

O que é llms.txt e por que está em alta?

llms.txt é um arquivo de índice orientado a máquinas, proposto em 2024 por Jeremy Howard, cofundador da Answer.AI. Ele é colocado na raiz de um site e resume a visão geral do site e links para páginas importantes em formato Markdown.

O objetivo é "permitir que LLMs e agentes entendam a estrutura sem rastrear o site inteiro". No entanto, a indústria de SEO posteriormente adicionou a interpretação de que "facilita ser citado em buscas de IA", e as expectativas ganharam vida própria.

A resposta do Google também contribuiu para a confusão.

  • Em seu Guia de IA Generativa, eles afirmaram explicitamente que "arquivos especiais como llms.txt não são necessários".
  • Enquanto isso, o Chrome Lighthouse adicionou uma função de verificação de llms.txt mais ou menos na mesma época.

John Mueller, do Google, explicou que "não é para busca, mas um auxílio temporário para ferramentas de codificação de IA", mas muitos sites já estavam instalando na esperança de "serem encontrados pela IA".

Visão Geral da Investigação: Análise de Logs de 137.000 Domínios ao Longo de 1 Mês

A equipe do Ahrefs usou o Web Analytics e o Bot Analytics para conduzir a seguinte investigação:

  • Alvo: Todos os 137.210 domínios que tiveram tráfego em maio de 2026
  • Verificação: Analisou as requisições ao caminho /llms.txt para cada domínio por resposta HTTP e agente de usuário
  • Controle de Qualidade: Excluiu soft 404s e arquivos fantasmas, contando apenas arquivos Markdown reais

Nota: Como os usuários do Ahrefs Web Analytics tendem a ter alta consciência técnica e de SEO, considere a taxa de adoção de 28% como um limite superior*.

5 Pontos-Chave dos Resultados da Investigação

✅ 28% dos sites publicaram llms.txt

Ahrefs (エイチレフス) Japan 公式 - inline image

Dos 137.000 domínios, cerca de 38.000 sites tinham instalado o llms.txt.

Nenhuma plataforma de IA afirmou oficialmente que lê este arquivo. A adoção foi impulsionada pela especulação de que "poderiam começar a usá-lo", não pela confirmação de que realmente o fazem.

✅ 97% deles têm zero acessos

Ahrefs (エイチレフス) Japan 公式 - inline image

Dos aproximadamente 38.000 domínios com um llms.txt válido, 97% não tiveram nenhuma requisição durante o mês de maio.

Os 3% restantes (cerca de 1.100 domínios) receberam todo o tráfego de llms.txt medido. Neste ponto, mesmo que você publique um llms.txt, há uma probabilidade esmagadoramente alta de que ninguém o acesse.

✅ Dos 3% que foram lidos, 96% foram acessos de bots

O llms.txt é um arquivo escrito para máquinas e, na realidade, quase apenas máquinas o estão lendo.

O acesso de humanos é de 4%. Isso inclui profissionais de SEO verificando sites concorrentes e bots de expansão de links quando um link de llms.txt é compartilhado em aplicativos de chat.

Curiosamente, o Slackbot buscou o llms.txt com mais frequência que o PerplexityBot. O fato de que os bots de pré-visualização de links para aplicativos de chat superam os bots de busca de IA mostra claramente o nível real de interesse do lado da busca de IA.

✅ Bots de IA representam 19,5%, sendo os maiores leitores os agentes de codificação

77% dos bots que buscam llms.txt não são ferramentas de IA.

Os bots de IA representam 19,5% do total, mas uma análise detalhada revela uma realidade diferente das expectativas:

  • Agentes de IA (Claude Code, etc.): 10,5%
  • Rastreadores de Treinamento de IA (GPTBot, etc.): 5,3%
  • Assistentes de IA: 2,5%
  • Bots de Recuperação de Busca de IA (Perplexity, OAI-SearchBot, etc.): 1,1%

O Claude Code sozinho enviou mais requisições do que todos os bots de recuperação de busca de IA combinados.

Em outras palavras, o llms.txt não está sendo lido para "ser citado em buscas de IA", mas sim para "agentes de codificação analisarem documentação". Isso está perfeitamente alinhado com a explicação de John Mueller.

✅ Zero bots de IA "procuram" por um llms.txt inexistente

Esta foi a descoberta mais clara.

Ao analisar requisições para arquivos llms.txt inexistentes (caminhos que retornam 404), o acesso de bots de IA foi zero.

98% daqueles que acessam páginas 404 são humanos (provavelmente profissionais de SEO fazendo pesquisa de concorrentes). Os sistemas de IA não saem espontaneamente procurando por este arquivo. Eles só o recuperam se a existência do arquivo for informada através de links, indexação ou instruções do usuário.

Você Deve Criar um llms.txt? Prós e Contras

Prós

  • O custo é praticamente zero: Plataformas como Wix estão começando a gerá-los automaticamente, então o esforço é mínimo.
  • Eficaz para agentes de codificação: Se seus clientes usam Claude Code, pode ser que ele seja realmente lido.
  • Preparando-se para o futuro: O Google afirmou que o futuro da busca é agêntico, e isso pode ter um impacto através da camada de agentes.

Contras

  • 97% não são lidos: A taxa base é muito dura.
  • Nenhum efeito na busca de IA: A participação dos bots de recuperação de busca de IA é de meros 1,1%.
  • Riscos de segurança: Como os agentes são projetados para confiar neste arquivo, ele pode ser um alvo para injeção de prompt. Pesquisadores de segurança já estão investigando isso.

Conclusão: Se Você Quiser Ser Citado em Buscas de IA, Há Prioridades Maiores que o llms.txt

Neste ponto, os contras superam os prós.

Se seu objetivo é aparecer em buscas de IA, existem outras maneiras de aumentar a visibilidade de forma mais confiável do que o llms.txt.

Se você ainda quiser considerá-lo, recomendamos o seguinte:

  1. Verifique seus próprios logs: A taxa base é uma probabilidade de 97% de zero leitores.
  2. Deixe para a geração automática do CMS: Se o efeito é incerto, é racional minimizar o esforço.
  3. Guie os agentes para o arquivo: A IA não o buscará a menos que seja instruída, então você precisa linká-lo a partir de algum lugar.

A metodologia detalhada da investigação, uma análise completa por categoria de bot e detalhes sobre os riscos de segurança são explicados no artigo principal do blog do Ahrefs 👉 https://ahrefs.com/blog/ja/llmstxt-study/

Turn one viral article into a full content workflow

Collect the source, decode the pattern, create assets, draft the story, and distribute from one AI workspace.

Explore YouMind

Mais padrões para decifrar

Artigos virais recentes

Explorar mais artigos virais