"唉,我又触达 Claude Code 的使用限制了!😭 太小气了!💢" 我懂这种感觉。但也许问题出在你的操作方式上?→ 那该怎么办?→ 读这篇文章 → 理解节省 token 的方法 → 问题解决,大家皆大欢喜!!!!
让我们开始吧!!!
你在使用 Claude Code 时有没有遇到过这些情况?

・在输入提示词的中途突然看到"已达到使用限制"
・尽管订阅了每月 200 美元的套餐,却每隔几小时就遇到速率限制
・因为担心限制而失去专注力和生产力
・每个月都在纠结是否要升级套餐来避免限制
・在重要工作中途被迫停下,最终跑去用另一个 AI
海外拥有 67 万粉丝的顶级 AI 影响者 Miles Deutscher(@milesdeutscher)的一篇文章目前正以 335 万点赞量爆火 😳

他本人之前在使用 Anthropic 每月 200 美元的套餐时,每天都会遇到速率限制。然而,通过"重新理解 Claude 的基本机制",他在过去三周内一次都没有触达 token 限制。
今天,我将把这些内容拆解成通俗易懂的方式 👇
原文在此:https://x.com/milesdeutscher/status/2049618781841031551
■ 𝗦𝘁𝗲𝗽 𝟭:规划(将规划与执行完全分离)

Miles 首先指出:"不要用 Claude Opus 进行头脑风暴。"
很多人可能都这样做。你有了一个想法,把它扔给 Opus 来碰撞思路。不知不觉 30 分钟过去了,你达到了限制。听起来很熟悉吧?
Miles 通过深入研究发现的事实是:
"文本聊天本身消耗的 token 并不多。真正消耗 token 的是编码、构建、设计这类执行型任务。"
换句话说,只要把"思考要做什么"的阶段(规划)和"实际去做"的阶段(执行)明确分开,就能大幅减少高成本模型的消耗。
Miles 提供了一个具体对比。假设两个人制作同一个财务追踪应用:

人 A:只花 2 分钟规划,用薄弱的设计开始构建。结果:返工 3 次。
人 B:花 20 分钟规划,巩固设计,一次性完成构建。
人 B 仅在这一项任务上就节省了约 67% 的 token。成本差异为 1.50 美元。考虑到一天中有很多任务,每月就会相差几十美元。
对于使用 Claude Code 的人来说,按 Shift+Tab×2 进入的"规划模式"正是体现这一理念的功能。

在规划模式下,Claude 专注于设计和规划,不编写代码。这意味着你可以在不消耗执行 token 的情况下巩固架构和策略。
此外,Miles 的风格是将规划阶段本身交给更便宜的模型。与其用 Opus 碰撞想法,不如用 Haiku。Haiku 足够聪明,可以进行头脑风暴,而且成本要低好几个数量级。
实践要点:
・用 Haiku 进行构思、头脑风暴和设计
・只有在设计稳固、"准备好构建"时才切换到 Opus
・养成在 Claude Code 中每次使用规划模式(Shift+Tab×2)的习惯
・"思考时间"越省,"返工"就越多,最终得不偿失
■ 𝗦𝘁𝗲𝗽 𝟮:聊天长度(聊天长度决定一切)

Miles 说长聊天是无声的杀手。这是很多人忽略的最大陷阱。
其机制是:每次发送消息时,Claude 都会重新读取该聊天中的整个上下文。这意味着:

・当聊天有 10 条消息时:它读取 10 条消息的 token
・当聊天有 100 条消息时:它读取 100 条消息的 token
随着聊天变长,每条消息的成本呈指数级增长。而且成本不是唯一的问题。随着旧信息混入,Claude 输出本身的质量也会下降。它会被不相关的过去上下文干扰,偏离目标的回答也会增加。
Miles 有两个解决方案。
𝟭. 利用项目

如果你重复做同一类型的任务,可以在一个项目中创建多个子聊天,而不是一个长聊天。
Miles 本人有一个用于在 X 上写作的项目,每次写新文章时都会打开一个新聊天。由于项目设置(指令)在所有聊天中共享,因此无需每次都重新解释"我是这样的人,用这种风格写作"。
更聪明的是在项目指令中加入这句话:
"请注意我正在尝试节省账户使用量。回答要简洁,并在适当的时候建议我何时应该开始新聊天,或提供任何其他可能帮助我减少 token 使用的技巧。"
仅此一句,Claude 本身就成了 token 节省顾问。它会开始告诉你:"可能是时候换一个新聊天了。"
𝟮. 使用超级提示进行压缩上下文转移

如果你绝对想把当前聊天的上下文带到下一个聊天,在聊天结束时这样说:
"我要换到一个新聊天;给我一个提示词,让我可以在不丢失当前对话任何上下文的情况下重新开始这个会话。"
Claude 会生成一个压缩了整个上下文的单一提示词。只需将其粘贴到新聊天的开头,就可以在不丢失上下文的情况下以轻量级聊天重新开始。
要记住的黄金法则:

"三个短聊天"比"一个超长聊天"在 token 效率上要高得多。如果有疑问,就开一个新聊天。仅此一项就能大幅降低触达限制的频率。
■ 𝗦𝘁𝗲𝗽 𝟯:正确记忆(将 Claude 的记忆持久化到外部文件)

Claude 最大的弱点之一是它会忘记上下文。
默认情况下,Claude 几乎不记得你的任何偏好或过去的指令。结果就是:
・每次都要解释相同的前提条件 → 消耗 token
・重复过去纠正过的错误 → 在纠正过程中消耗 token
・忘记偏好,给出不必要的输出 → 返工消耗 token
Miles 介绍了一种从根本上打破这种恶性循环的方法。
方法很简单。在桌面上创建一个文件夹,在里面放两个 Markdown 文件。

𝗜𝗻𝘀𝘁𝗿𝘂𝗰𝘁𝗶𝗼𝗻𝘀.𝗠𝗗(指令表)
用于编写 Claude 的永久规则和指令的文件。
示例结构:
・## 你是谁 → 你的角色/专长
・## 你做什么 → 期望 Claude 的行为
・## 规则 → 你希望它严格遵守的规则
并把最重要的一行放在这里:
"随着时间的推移,用我的偏好更新 Memory.MD。"
有了这条指令,Claude 会自动将在对话中学到的你的偏好和纠正写入第二个文件。
𝗠𝗲𝗺𝗼𝗿𝘆.𝗠𝗗(记忆文件)
作为 Claude"第二大脑"的文件。用得越多越聪明。
示例结构:
・## 偏好 → 偏好的风格、格式
・## 纠正 → 过去纠正过的事项
・## 模式 → 重复使用的模式
具体例子:如果你说一次"不要使用破折号",Claude 就会记录在这个文件中。下次即使你什么都不说,破折号也不会出现。如果你说"用 ■ 代替 # 作为标题",那也会被记录。

只需将这个文件夹附加到 Claude Code/Cowork 即可完成设置。由于 Claude 每次都会读取文件夹的内容,因此上下文可以在不同聊天之间保持。
Miles 说一旦开始使用,就再也回不去了。用于重新解释的 token 变为零,这在体验上意义重大。
■ 𝗦𝘁𝗲𝗽 𝟰:模型分层与选择(合理使用模型节省 90%)
"所有事情都用 Opus 4.7 完全是浪费,"Miles 断言。

人们常犯的一个错误是认为"只要一直用最聪明的模型就没问题"。但这就像"开法拉利去便利店"。
Miles 实践的是"升级法"。

Haiku(轻量任务)→ Sonnet(中等任务)→ Opus(繁重任务/最终收尾)
按此顺序开始,只有在能力确实不足时才切换到更高级的模型。根据他的经验,90% 的任务用 Opus 以外的模型就足够了,只有剩下的 10% 才真正需要 Opus。
进一步微调:

・𝗘𝘅𝘁𝗲𝗻𝗱𝗲𝗱 𝗧𝗵𝗶𝗻𝗸𝗶𝗻𝗴(扩展思考):通常保持关闭。只在复杂推理或数学任务时打开。打开时 token 消耗会激增,所以只在真正需要时使用。
・𝗦𝘁𝘆𝗹𝗲𝘀(风格设置):你可以从 Claude 主屏幕切换到"简洁"风格。仅此一项就能让回答变得简短,显著减少输出 token。很多人甚至不知道有这个功能。
・𝗟𝗼𝘄 𝗘𝗳𝗳𝗼𝗿𝘁(低努力):在 Claude Code 中,你可以选择"低"努力模式。这对于简单任务来说已经足够,并且能提高处理速度。
另外,不要忘记 Claude 以外的选择。对于新闻搜索、研究、总结等简单任务,免费的或便宜的开源模型如 Kimi 或 DeepSeek 就足够了。把 Claude 的配额留给"只有 Claude 能做的事"。
■ 𝗦𝘁𝗲𝗽 𝟱:工具拆分(策略性地使用每个工具的配额)

大多数人没有注意到的事实:每个 Claude 工具都有自己独立的使用参数。
具体来说:

・Claude Code / Claude Chat → 共享同一套餐的使用配额
・Claude Design → 完全独立的配额
如果你不了解这个机制,会发生什么?例如,你让 Claude Code 创建一个 UI 设计稿。这会消耗 Code/Chat 的配额。但独立的工具 Claude Design 还有未使用的配额完全闲置。如果你在 Claude Design 中做同样的设计任务,就可以完全避免消耗 Code/Chat 的配额。
让每个工具做它原本设计的工作是最划算的。
Miles 的规则:
・编码 → Claude Code
・设计 → Claude Design
・对话/分析 → Claude Chat
・让每个工具做它擅长的事,不要强迫它做不擅长的事。
■ 额外技巧(可以立即使用的附加技巧合集)

・购买额外积分:在考虑升级套餐(如从 20 美元到 100 美元)之前,有一个选项可以只购买几美元的额外积分。当月底稍微不够用时,这就足够了。
・Claude Skills:构建技能来自动化重复性任务。与其每次解释相同的流程,不如将其保存为技能,用一个命令执行。
・使用追踪:养成定期检查使用状态的习惯。在 Claude Code 中,可以用 /Usage 命令立即查看。如果你知道"还剩百分之几",就可以调整使用方式。
・概览部分:新增功能,可以一目了然地看到使用状态的仪表盘。
・接近限制时改变行为:当剩余不足 20% 时,有意识地通过切换到 Haiku、关闭扩展思考、保持聊天简短等方式切换模式。
■ 总结:用这个方法实现了 3 周零限制

Miles 说,在实践这 5 个步骤的三周里,他一次都没有触达 token 限制。而且没有改变他每月 200 美元的套餐。
要点整理:

・步骤 1:用 Haiku 规划,用 Opus 执行。仅通过分离阶段就减少了 67%。
・步骤 2:保持聊天简短,用项目管理。3 个短聊天 > 1 个长聊天。
・步骤 3:用 Memory.MD 将记忆外部化,将重新解释成本归零。
・步骤 4:使用升级法,将 90% 的任务交给 Opus 以外的模型。同时利用风格和努力设置。
・步骤 5:了解每个工具的使用配额差异,让合适的工具做合适的工作。
说实话,AI 使用成本在未来变便宜的前景很渺茫。相反,随着模型性能越来越高,token 单价往往还会上涨。因此,现在学习"正确的使用方法"直接关系到长期的节省。
正如 Miles 所说,问题不在于"套餐便宜",而在于"使用方式错误"。如果使用正确,在现有套餐上实现不触达限制的生活是完全可能的。
给那些觉得这篇文章有点帮助的人。

𝗖𝗹𝗮𝘂𝗱𝗲 𝗖𝗼𝗱𝗲 𝗦𝘁𝘂𝗱𝗶𝗼 @ 𝗝𝗮𝗽𝗮𝗻(@ClaudeCode_love)是一个由三位 Claude Code 爱好者运营的账号。
我们每天发布关于实用 CLI 利用和自动化的内容。
目前正在与一家上市公司共同开发 AI Agent。
我们的日常帖子 👇
・使用 Claude Code 和 Claude 的实际产品开发案例
・Claude Code 利用 / Vibe Coding / 开发趋势的整理
・海外 Claude Code 的最新信息
从开发理念到设计、实现和改进,
我们总结海外和一手信息,将可工作的产品推向世界,而不仅仅是"做完"。
如果你感兴趣,请关注并查看 👀 我认为会很有帮助!





