【Ahrefs 调查】安装 llms.txt 对 AI 搜索有帮助吗?97% 的文件“无人问津”的真相

@AhrefsJP
日语2天前 · 2026年7月01日
241K
24
6
0
9

TL;DR

Ahrefs 分析了 137,000 个域名以测试 llms.txt 对 AI 搜索的有效性。他们发现 97% 的文件从未被读取,且大部分流量来自编程 Agent,而非搜索机器人。

"安装 llms.txt 能让 AI 更容易引用你的网站。"

信以为真的人不在少数,许多网站已经发布了 llms.txt 文件。然而,Ahrefs 团队分析了 137,000 个域名的服务器日志后发现,97% 的文件从未被读取过,一次都没有

什么是 llms.txt,它为何成为趋势?

llms.txt 是一种面向机器的索引文件,由 Answer.AI 的联合创始人 Jeremy Howard 在 2024 年提出。它放置在网站的根目录下,以 Markdown 格式总结网站概况和重要页面的链接。

其目标是"让 LLM 和 Agent 无需爬取整个网站就能理解网站结构"。然而,SEO 行业后来将其包装成了"更容易在 AI 搜索中被引用",期望值随之被过度放大。

谷歌的表态也加剧了这种困惑。

  • 生成式 AI 指南 中,他们明确指出"不需要像 llms.txt 这样的特殊文件"。
  • 与此同时,Chrome Lighthouse 大约在同一时间增加了 llms.txt 的检查功能。

谷歌的 John Mueller 将其解释为"不是用于搜索,而是 AI 编码工具的临时辅助手段",但许多网站为了"被 AI 发现",早已着手安装。

调查概述:针对 137,000 个域名进行为期 1 个月的日志分析

Ahrefs 团队使用 Web AnalyticsBot Analytics 进行了以下调查:

  • 目标:2026 年 5 月有流量的全部 137,210 个域名
  • 验证:分析每个域名针对 /llms.txt 路径的 HTTP 响应和用户代理请求
  • 质量控制:排除软 404 和幽灵文件,仅统计实际的 Markdown 文件

注:由于 Ahrefs Web Analytics 用户通常具有较高的技术和 SEO 意识,请将 28% 的采用率视为上限*。

调查结果的 5 个关键要点

✅ 28% 的网站已发布 llms.txt

Ahrefs (エイチレフス) Japan 公式 - inline image

在 137,000 个域名中,约有 38,000 个网站安装了 llms.txt。

没有任何 AI 平台曾官方声明会读取此文件。采用此文件的驱动力是猜测它们"可能会开始使用它",而非确认它们确实会使用。

✅ 其中 97% 的文件零访问

Ahrefs (エイチレフス) Japan 公式 - inline image

在大约 38,000 个拥有有效 llms.txt 的域名中,97% 在 5 月份收到了零次请求

其余 3%(约 1,100 个域名)占据了所有被测的 llms.txt 流量。目前来看,即使你发布了 llms.txt,也有极高的概率无人问津。

✅ 在被读取的 3% 中,96% 来自爬虫访问

llms.txt 是为机器编写的文件,实际上,几乎只有机器在读取它。

来自人类的访问仅占 4%。这包括检查竞争对手网站的 SEO 专业人士,以及当 llms.txt 链接在聊天应用中分享时触发的链接展开爬虫。

有趣的是,Slackbot 抓取 llms.txt 的频率比 PerplexityBot 还要高。聊天应用的链接预览爬虫超过 AI 搜索爬虫这一事实,清晰地表明了 AI 搜索方面的实际兴趣程度。

✅ AI 爬虫占 19.5%,最大的读取者是编码 Agent

77% 抓取 llms.txt 的爬虫并非 AI 工具。

AI 爬虫占总量的 19.5%,但细分类别揭示了一个与预期不同的现实:

  • AI Agent(Claude Code 等):10.5%
  • AI 训练爬虫(GPTBot 等):5.3%
  • AI 助手:2.5%
  • AI 搜索检索爬虫(Perplexity, OAI-SearchBot 等):1.1%

仅 Claude Code 发送的请求就超过了所有 AI 搜索检索爬虫的总和。

换句话说,llms.txt 实际上并非为了"在 AI 搜索中被引用"而被读取,而是为了"编码 Agent 解析文档"。这与 John Mueller 的解释完全一致。

✅ 零 AI 爬虫会"主动寻找"不存在的 llms.txt

这是最清晰的发现。

在分析针对不存在的 llms.txt 文件(返回 404 的路径)的请求时,来自 AI 爬虫的访问量为零

98% 访问 404 页面的是人类(很可能是进行竞争对手研究的 SEO 专业人士)。AI 系统不会自发地去寻找这个文件。它们只有在通过链接、索引或用户指令得知该文件存在时,才会去检索它。

是否应该创建 llms.txt?利弊分析

优势

  • 成本几乎为零:Wix 等平台已开始自动生成,因此所需精力极少。
  • 对编码 Agent 有效:如果你的客户使用 Claude Code,它可能真的会被读取。
  • 为未来做准备:谷歌已表示搜索的未来是 Agent 化的,它可能通过 Agent 层产生影响。

劣势

  • 97% 不会被读取:基准比率非常残酷。
  • 对 AI 搜索无影响:AI 搜索检索爬虫的份额仅为 1.1%。
  • 安全风险:由于 Agent 被设计为信任此文件,它可能成为提示注入攻击的目标。安全研究人员已在调查此事。

结论:如果目标是被 AI 搜索引用,优先事项比 llms.txt 重要得多

目前来看,弊大于利

如果你的目标是出现在 AI 搜索结果中,还有其他比 llms.txt 更可靠的方法来提高可见度。

如果你仍在考虑,我们建议如下:

  1. 检查你自己的日志:基准概率是 97% 的几率为零读者。
  2. 交由 CMS 自动生成:如果效果不确定,最小化投入是理性的选择。
  3. 引导 Agent 找到文件:AI 只有在被指示时才会去抓取,因此你需要从某处链接到它。

调查的详细方法、按爬虫类别的完整细分以及安全风险的详细信息,请参阅 Ahrefs 主博客文章 👉 https://ahrefs.com/blog/ja/llmstxt-study/

使用 YouMind 创作爆款文章

收集素材、拆解爆点、生成视觉资产、撰写内容,并在一个 AI 工作空间里完成分发。

了解 YouMind

更多可拆解样本

近期爆款文章

探索更多爆款文章