Claude 使用限制为何总是快速耗尽?用户必读的深度解析

Claude 使用限制为何总是快速耗尽?用户必读的深度解析

@nowlovepan
韩语1周前 · 2026年5月06日

AI 功能

1.1M
380
105
13
785

TL;DR

本指南揭示了 Claude 使用限制耗尽的根本原因在于累计的 token 处理量。文中提供了 9 种防止 token 浪费的具体方法,包括精简 CLAUDE.md 文件,以及使用 /context 等诊断指令来优化使用体验。

Claude 限额快速用尽的真正原因

开门见山地说,并不是模型变笨了,而是我的开销变大了。

但像"缩短 CLAUDE.md"这类表面建议并不够。你需要理解它泄漏的结构,才能真正阻止它。

(我知道很多 AI 初学者即使读完也可能不理解。所以,我会在最后附上连初学者也能用的提示词。如果不理解,直接复制粘贴就好。希望你能从中有所收获!)

核心思维模型(这解释了 90% 的问题)

Transformer 在每次交互时都会从头重新处理整个对话。

当你发送第 30 条消息时,模型读取的内容是:→ 消息 1–29 + 所有回复 → 所有工具调用结果(PR 差异、文件读取等)→ CLAUDE.md → 系统提示 → MCP 工具定义 → + 第 30 条消息。

它在开始回答之前就已经处理了所有这些内容。

换句话说,第 30 轮不是第 1 轮的 30 倍;而是所有累积内容的总和,每次都要重新处理。

从这里开始,你自然就能明白为什么令牌会泄漏了。

令牌泄漏的 9 个漏洞

原始来源中的百分比数字(14%、13%...)来自个例,推广有风险。我按影响程度重新整理了它们。

  1. CLAUDE.md 膨胀 — 影响 ★★★ 只要会话存活,它就会包含在每条消息中。它不是懒加载的。一个 2000 令牌的 CLAUDE.md 被处理 200 次(对应 200 条消息)= 400,000 令牌。官方建议:少于 200 行,300–600 令牌。
  1. 对话累积 — 影响 ★★★ 正如思维模型所描述的那样。在两三次 PR 审查后,你的限额用掉 60% 并不奇怪;这是结构性的。
  1. 工具输出累积 — 影响 ★★★ 获取一次 PR 差异就可能注入数千行。如果你读取了 20 个文件,这 20 个文件会一直跟着你直到结束。这比其他来源提到的"钩子"更准确。
  1. 缓存未命中 — 影响 ★★ 提示缓存会自动应用,但如果在一段(较短的)时间内未使用就会过期。如果你在会话中频繁编辑 CLAUDE.md,缓存每次都会失效。
  1. 技能 — 影响 ★(原始来源略有偏差)技能只在被调用时加载。只有元数据会保留。真正的问题是当单个技能变得臃肿时。
  1. "以防万一"的 MCP — 影响 ★★ 如果连接了 12 个 MCP,12 个工具定义会被注入到每次调用中。只保留你实际使用的 3 个作为活跃状态。
  1. 扩展思考默认开启 — 影响 ★★★ 通常默认开启。预算可能高达数万个令牌(按输出计费)。如果只是为了更改变量名而进行深度推理,那真是浪费。
  1. 看完错误答案 — 影响 ★★ 如果回答偏离轨道,立即停止。如果不停止,那整个输出就会成为下一轮的输入。
  1. 累积的通知/元消息 — 影响 ★ 很小,但累积起来就会成为"隐性消耗者"。

修复前务必诊断

这是人们容易忽略的部分。

/context ← 按项目显示上下文中的令牌

/usage ← 会话使用量

/cost ← 累计 API 成本

只需运行一次 /context,5 秒内就会显示你情况中的头号泄漏。

大多数结果都类似:

  1. 累积的工具输出是压倒性的头号问题
  2. CLAUDE.md
  3. MCP 工具定义

不测量就削减是白费力气。先削减你的头号泄漏。

30 秒基线(做一次就一劳永逸)

✅ 将你的 CLAUDE.md 精简到 200 行以内

✅ 只保留 3 个活跃的 MCP

✅ 扩展思考 → 默认关闭,仅在需要时使用

✅ .claudeignore → 排除大型生成文件

✅ 养成任务完成后使用 /clear 的习惯

7 个影响巨大的高级技巧

① 默认使用计划模式

在执行高成本任务前按 Shift+Tab × 2。在不接触代码的情况下进行规划。用于像"重构这个"这样的宽泛请求。它能最显著地减少浪费在无用功上的令牌比例。

② 模型切换

80% 日常编码 → Sonnet;复杂推理 → Opus。命令:/model sonnet,/model opus。

OpusPlan 模式:用 Opus 规划,用 Sonnet 实现。可以节省 60% 的成本。

③ 有选择地使用子 Agent

它们在单独的上下文中运行,只向主会话返回摘要。仅用于重度探索——对于小任务,开销实际上更大。规则:仅在(节省的主上下文 > 子 Agent 启动成本)时使用。

④ 主动使用 /compact

等到 80% 上下文警告就太晚了。它会压缩所有噪音。

正确用法:

  • 在每个任务阶段结束时
  • 在调用 /compact 之前给出摘要指南:"只保留 X、Y、Z,丢弃其余部分。"

⑤ 使用精确的文件范围进行读取

❌ "查看整个代码库"

✅ "只看 src/auth.js 的第 50-120 行,并改进错误处理"

差别巨大。

⑥ 会话交接笔记

在结束长会话之前:

"用不超过 500 令牌总结到目前为止完成的工作、下一步计划以及重要决策。"

将其粘贴到下一个会话中 = 比重建整个历史记录少用几十倍的令牌。

⑦ 对重复性任务使用斜杠命令

不要每次都用自然语言解释常见模式(PR 审查格式、测试规则)。将它们定义为斜杠命令 → 确定且轻量。比把它们放在 CLAUDE.md 中高效得多。

常见误区

❌ "把所有东西都放在 CLAUDE.md 里很方便" → 你每次交互都要付出这个代价。

❌ "子 Agent 总是更便宜" → 对于小任务实际上更贵。

❌ "更大的上下文会让它更聪明" → 相反。由于上下文腐烂,质量会下降。

❌ "从 Pro 升级到 Max 就能解决" → 同样的低效率只会变得贵 5 倍。先修复泄漏。

令牌浪费是行为问题,而不是限额问题。

运行一次 /context,精简 CLAUDE.md,整理 MCP,并控制扩展思考,就能解决大部分问题。

记住每条消息都要付出所有先前消息的代价,你就会知道从哪里削减。

给初学者的提示词

针对 Claude Code 用户(自我诊断与精简设置)

运行 /context 命令并分析结果。

然后,按顺序执行以下操作:

1. 告诉我占用令牌最多的前 1-3 个项目。

2. 针对每个项目,建议一个我现在可以采取的具体行动来减少它们(包括预估的令牌节省量)。

3. 阅读我的 CLAUDE.md,并建议一个精简版本,使其少于 200 行 / 600 令牌。建议将移除的内容移到哪里(技能?斜杠命令?还是直接删除?)。

4. 最后,检查其他泄漏,如扩展思考或 MCP 工具组织。

由于我是初学者,请将结果按优先级排序为"立即执行 / 有空时执行"。

针对 Claude.ai 聊天用户(对话卫生)

当对话变长、回复变慢或限额逼近时,复制并粘贴:

用不超过 500 字符总结本次对话中真正重要的信息。排除试错、离题和问候;只关注核心结论、决策和下一步计划。我将复制此内容开始新对话,请组织好,以便我粘贴后能立即恢复工作。

只要拿到这两个提示词,就能帮助你更舒适地使用 AI,避免浪费令牌!如果对你有帮助,请点赞!

如有其他问题,请在评论区留言~

更多可拆解样本

近期爆款文章

探索更多爆款文章

为创作者而生。

从全球 𝕏 爆款文章里发现选题,拆解它为什么能爆,再把可复用的内容结构变成你的下一篇创作灵感。