实现 67% 的 Token 缩减：Claude Code 的“升级”策略

"唉，我又触达 Claude Code 的使用限制了！😭 太小气了！💢" 我懂这种感觉。但也许问题出在你的操作方式上？→ 那该怎么办？→ 读这篇文章 → 理解节省 token 的方法 → 问题解决，大家皆大欢喜！！！！

让我们开始吧！！！

你在使用 Claude Code 时有没有遇到过这些情况？

・在输入提示词的中途突然看到"已达到使用限制"

・尽管订阅了每月 200 美元的套餐，却每隔几小时就遇到速率限制

・因为担心限制而失去专注力和生产力

・每个月都在纠结是否要升级套餐来避免限制

・在重要工作中途被迫停下，最终跑去用另一个 AI

海外拥有 67 万粉丝的顶级 AI 影响者 Miles Deutscher（@milesdeutscher）的一篇文章目前正以 335 万点赞量爆火 😳

他本人之前在使用 Anthropic 每月 200 美元的套餐时，每天都会遇到速率限制。然而，通过"重新理解 Claude 的基本机制"，他在过去三周内一次都没有触达 token 限制。

今天，我将把这些内容拆解成通俗易懂的方式 👇

原文在此：https://x.com/milesdeutscher/status/2049618781841031551

■ 𝗦𝘁𝗲𝗽 𝟭：规划（将规划与执行完全分离）

Miles 首先指出："不要用 Claude Opus 进行头脑风暴。"

很多人可能都这样做。你有了一个想法，把它扔给 Opus 来碰撞思路。不知不觉 30 分钟过去了，你达到了限制。听起来很熟悉吧？

Miles 通过深入研究发现的事实是：

"文本聊天本身消耗的 token 并不多。真正消耗 token 的是编码、构建、设计这类执行型任务。"

换句话说，只要把"思考要做什么"的阶段（规划）和"实际去做"的阶段（执行）明确分开，就能大幅减少高成本模型的消耗。

Miles 提供了一个具体对比。假设两个人制作同一个财务追踪应用：

人 A：只花 2 分钟规划，用薄弱的设计开始构建。结果：返工 3 次。

人 B：花 20 分钟规划，巩固设计，一次性完成构建。

人 B 仅在这一项任务上就节省了约 67% 的 token。成本差异为 1.50 美元。考虑到一天中有很多任务，每月就会相差几十美元。

对于使用 Claude Code 的人来说，按 Shift+Tab×2 进入的"规划模式"正是体现这一理念的功能。

在规划模式下，Claude 专注于设计和规划，不编写代码。这意味着你可以在不消耗执行 token 的情况下巩固架构和策略。

此外，Miles 的风格是将规划阶段本身交给更便宜的模型。与其用 Opus 碰撞想法，不如用 Haiku。Haiku 足够聪明，可以进行头脑风暴，而且成本要低好几个数量级。

实践要点：

・用 Haiku 进行构思、头脑风暴和设计

・只有在设计稳固、"准备好构建"时才切换到 Opus

・养成在 Claude Code 中每次使用规划模式（Shift+Tab×2）的习惯

・"思考时间"越省，"返工"就越多，最终得不偿失

■ 𝗦𝘁𝗲𝗽 𝟮：聊天长度（聊天长度决定一切）

Miles 说长聊天是无声的杀手。这是很多人忽略的最大陷阱。

其机制是：每次发送消息时，Claude 都会重新读取该聊天中的整个上下文。这意味着：

・当聊天有 10 条消息时：它读取 10 条消息的 token

・当聊天有 100 条消息时：它读取 100 条消息的 token

随着聊天变长，每条消息的成本呈指数级增长。而且成本不是唯一的问题。随着旧信息混入，Claude 输出本身的质量也会下降。它会被不相关的过去上下文干扰，偏离目标的回答也会增加。

Miles 有两个解决方案。

𝟭. 利用项目

如果你重复做同一类型的任务，可以在一个项目中创建多个子聊天，而不是一个长聊天。

Miles 本人有一个用于在 X 上写作的项目，每次写新文章时都会打开一个新聊天。由于项目设置（指令）在所有聊天中共享，因此无需每次都重新解释"我是这样的人，用这种风格写作"。

更聪明的是在项目指令中加入这句话：

"请注意我正在尝试节省账户使用量。回答要简洁，并在适当的时候建议我何时应该开始新聊天，或提供任何其他可能帮助我减少 token 使用的技巧。"

仅此一句，Claude 本身就成了 token 节省顾问。它会开始告诉你："可能是时候换一个新聊天了。"

𝟮. 使用超级提示进行压缩上下文转移

如果你绝对想把当前聊天的上下文带到下一个聊天，在聊天结束时这样说：

"我要换到一个新聊天；给我一个提示词，让我可以在不丢失当前对话任何上下文的情况下重新开始这个会话。"

Claude 会生成一个压缩了整个上下文的单一提示词。只需将其粘贴到新聊天的开头，就可以在不丢失上下文的情况下以轻量级聊天重新开始。

要记住的黄金法则：

"三个短聊天"比"一个超长聊天"在 token 效率上要高得多。如果有疑问，就开一个新聊天。仅此一项就能大幅降低触达限制的频率。

■ 𝗦𝘁𝗲𝗽 𝟯：正确记忆（将 Claude 的记忆持久化到外部文件）

Claude 最大的弱点之一是它会忘记上下文。

默认情况下，Claude 几乎不记得你的任何偏好或过去的指令。结果就是：

・每次都要解释相同的前提条件 → 消耗 token

・重复过去纠正过的错误 → 在纠正过程中消耗 token

・忘记偏好，给出不必要的输出 → 返工消耗 token

Miles 介绍了一种从根本上打破这种恶性循环的方法。

方法很简单。在桌面上创建一个文件夹，在里面放两个 Markdown 文件。

𝗜𝗻𝘀𝘁𝗿𝘂𝗰𝘁𝗶𝗼𝗻𝘀.𝗠𝗗（指令表）

用于编写 Claude 的永久规则和指令的文件。

示例结构：

・## 你是谁 → 你的角色/专长

・## 你做什么 → 期望 Claude 的行为

・## 规则 → 你希望它严格遵守的规则

并把最重要的一行放在这里：

"随着时间的推移，用我的偏好更新 Memory.MD。"

有了这条指令，Claude 会自动将在对话中学到的你的偏好和纠正写入第二个文件。

𝗠𝗲𝗺𝗼𝗿𝘆.𝗠𝗗（记忆文件）

作为 Claude"第二大脑"的文件。用得越多越聪明。

示例结构：

・## 偏好 → 偏好的风格、格式

・## 纠正 → 过去纠正过的事项

・## 模式 → 重复使用的模式

具体例子：如果你说一次"不要使用破折号"，Claude 就会记录在这个文件中。下次即使你什么都不说，破折号也不会出现。如果你说"用 ■ 代替 # 作为标题"，那也会被记录。

只需将这个文件夹附加到 Claude Code/Cowork 即可完成设置。由于 Claude 每次都会读取文件夹的内容，因此上下文可以在不同聊天之间保持。

Miles 说一旦开始使用，就再也回不去了。用于重新解释的 token 变为零，这在体验上意义重大。

■ 𝗦𝘁𝗲𝗽 𝟰：模型分层与选择（合理使用模型节省 90%）

"所有事情都用 Opus 4.7 完全是浪费，"Miles 断言。

人们常犯的一个错误是认为"只要一直用最聪明的模型就没问题"。但这就像"开法拉利去便利店"。

Miles 实践的是"升级法"。

Haiku（轻量任务）→ Sonnet（中等任务）→ Opus（繁重任务/最终收尾）

按此顺序开始，只有在能力确实不足时才切换到更高级的模型。根据他的经验，90% 的任务用 Opus 以外的模型就足够了，只有剩下的 10% 才真正需要 Opus。

进一步微调：

・𝗘𝘅𝘁𝗲𝗻𝗱𝗲𝗱 𝗧𝗵𝗶𝗻𝗸𝗶𝗻𝗴（扩展思考）：通常保持关闭。只在复杂推理或数学任务时打开。打开时 token 消耗会激增，所以只在真正需要时使用。

・𝗦𝘁𝘆𝗹𝗲𝘀（风格设置）：你可以从 Claude 主屏幕切换到"简洁"风格。仅此一项就能让回答变得简短，显著减少输出 token。很多人甚至不知道有这个功能。

・𝗟𝗼𝘄 𝗘𝗳𝗳𝗼𝗿𝘁（低努力）：在 Claude Code 中，你可以选择"低"努力模式。这对于简单任务来说已经足够，并且能提高处理速度。

另外，不要忘记 Claude 以外的选择。对于新闻搜索、研究、总结等简单任务，免费的或便宜的开源模型如 Kimi 或 DeepSeek 就足够了。把 Claude 的配额留给"只有 Claude 能做的事"。

■ 𝗦𝘁𝗲𝗽 𝟱：工具拆分（策略性地使用每个工具的配额）

大多数人没有注意到的事实：每个 Claude 工具都有自己独立的使用参数。

具体来说：

・Claude Code / Claude Chat → 共享同一套餐的使用配额

・Claude Design → 完全独立的配额

如果你不了解这个机制，会发生什么？例如，你让 Claude Code 创建一个 UI 设计稿。这会消耗 Code/Chat 的配额。但独立的工具 Claude Design 还有未使用的配额完全闲置。如果你在 Claude Design 中做同样的设计任务，就可以完全避免消耗 Code/Chat 的配额。

让每个工具做它原本设计的工作是最划算的。

Miles 的规则：

・编码 → Claude Code

・设计 → Claude Design

・对话/分析 → Claude Chat

・让每个工具做它擅长的事，不要强迫它做不擅长的事。

■ 额外技巧（可以立即使用的附加技巧合集）