Claude Fable 5 成本优化：10-80-10 路由指南

Fable 5 是我用过的最好的 AI 模型。

但它也贵得离谱。

在最初几个小时的测试中，我几乎用光了我的全部使用额度。

而且我还没做什么特别疯狂的事。

Fable 的成本是 Opus 4.8 的两倍。

而且因为它太聪明了，它实际上会过度思考——运行循环并消耗 Token，这是之前的 Claude 模型从未有过的。

大多数人使用它的方式完全错了。

以下是我构建的精确系统，可以将我的 Fable Token 成本降低 50% 以上。

没有新工具。输出量不变。只是更智能的路由。

每个人在第一天都会犯的错误

你打开 Claude Code。

Fable 现在是默认模型。

你开始聊天。

你让它修复一个拼写错误。你让它格式化一些 JSON。你让它重命名一个变量。

Fable 思考了 12 秒，消耗了 8,000 个推理 Token，返回了答案。

成本：0.60 美元，完成了一个 Haiku 本可以用 0.02 美元搞定的任务。

你是在为闲聊支付外科医生的费用。

Fable 是一位架构师。

不是你的室友。

一旦你内化了这一点，一切都会改变。

10-80-10 系统（Anthropic 工程师们自己使用的精确框架）

每个 Fable 项目都有三个阶段。

大多数人都在 Fable 上运行所有三个阶段。

明智的做法是只在 Fable 上运行其中两个阶段。

最初的 10%——规划

这是 Fable 物有所值的地方。

在任何项目开始之前，使用 Fable 来定义：

→ 结构和方案 → 成功标准 → 约束条件和边缘情况 → 可能出错的地方

想象一下盖房子。

最昂贵的错误是给建筑工人一张糟糕的蓝图。

首先要确保架构正确。

Fable 在这方面非常出色。

中间的 80%——执行

这是大多数 Token 被消耗的地方。

反复沟通。迭代。实现循环。实际完成任务所需的繁琐工作。

Fable 不需要参与这部分。

切换到 Opus 4.8 处理标准工作。使用 Haiku 处理轻量级任务。使用 Codex 或 GPT-5.5 处理机械性执行工作。

你获得了 Fable 级别的架构，而无需为每一个执行 Token 支付 Fable 的价格。

最后的 10%——审查

让 Fable 重新介入。

让它根据原始计划审查输出：

→ 结果是否符合架构？

→ 是否有遗漏的差距或边缘情况？

→ 在发布前是否需要修复任何问题？

因为 Fable 审查的是完成的输出，而不是从头开始生成，所以它消耗的 Token 数量只是完成整个任务所需的一小部分。

[INSERT IMAGE 2 — PROMPT BELOW]

CLAUDE.md 路由表（一个控制一切的文件）

这是最大的解锁。

在你的 CLAUDE.md 中维护一个单一的路由表。

让 Fable 充当编排器，读取该表并自动将工作分派给正确的模型。

这是我使用的精确路由表：

markdown

1## 模型路由表
2
3### Fable 5（仅限编排器）
4用于：规划、架构、审查最终输出
5绝不用于：机械性任务、批量生成、样板代码
6努力级别：高（绝不用极高——它是个 Token 熔炉，输出反而更差）
7
8### Opus 4.8（深度推理执行器）
9用于：复杂调试、多步骤推理、任何需要真正思考但不是架构设计的工作
10成本层级：标准
11
12### Sonnet 5（机械性工作执行器）
13用于：代码生成、重构、标准功能开发
14成本层级：便宜
15
16### Codex / GPT-5.5（同级执行器）
17用于：实现任务、UI/UX 验证、规格明确的执行工作
18注意：Fable 可以学会引导 Codex——教它一次如何做
19成本层级：在 Codex 计划下通常免费
20
21### Haiku（批量执行器）
22用于：格式化、代码检查、简单编辑、样板代码、重命名重构、测试脚手架
23绝不让 Haiku 生成进一步的子 Agent
24成本层级：最便宜
25
26### Kimi / GLM-5.2（长上下文执行器）
27用于：读取大文件、长期仓库分析，这样 Fable 就无需消耗 Token
28成本层级：非常便宜
29
30### DeepSeek / Qwen（极其廉价的苦力工作）
31用于：样板代码、测试编写、数据清洗、翻译、初稿文档、批量生成
32成本层级：近乎免费

Fable 从不直接接触廉价的工作。

它进行规划，分派给合适的层级，然后根据计划检查结果。

这个昂贵的大脑只花 Token 来做决策。

就是这一个文件，让我的账单下降了，而我的产出却上升了。

帮我节省了 70% Token 的精确 CLAUDE.md 设置

这是我放入 CLAUDE.md 的完整编排部分：

markdown

1## 编排工作流
2
3你（Fable）是编排器。负责规划、分解、综合。
4不要自己执行机械性任务。
5
6### 分派规则：
7- 推理密集型阶段 → 深度推理器（Opus 4.8）
8- 机械性工作 → 快速工作者（Sonnet/Haiku）
9- 代码库分析 / 大文件 → Kimi（长上下文）
10- 样板代码 / 批量任务 → DeepSeek 或 Qwen
11- 来自不同视角的同行评审 → Codex
12
13### Codex 是同级，不是审查者：
14将 Codex 视为来自不同视角的、技术超强的高级工程师。
15对于高风险决策：让 Opus 和 Codex 并行处理同一个问题，
16综合两者的最佳结果，而不向任何一方展示另一方的答案。
17
18### 上下文纪律：
19保持你自己的上下文精简。
20绝不重新读取你已经处理过的文件。
21在将工具输出反馈到上下文之前，先进行总结。
22要求模型返回你可以据此行动的简洁结论。
23
24### 努力级别：
25- 规划和架构：高努力
26- 审查通过：中等努力
27- 默认情况下绝不使用极高/最大——成本更高，效果通常更差

现在像技术负责人一样提示 Fable：

markdown

1目标：[你想要什么]
2上下文：[文件、约束条件、你担心什么]
3
4你是负责人。
5将推理任务分派给深度推理器（Opus）。
6将苦力工作分派给快速工作者（Sonnet/Haiku）。
7使用 Codex 处理需要新视角的问题。
8
9先向我展示你的计划，然后执行。

就是这样。

Fable 负责规划。其他所有模型负责执行。账单保持平稳。

安装 Codex 插件——倍增器操作

这是大多数人跳过的设置。

Codex 和 Fable 结合使用，效果是单独使用 Fable 的 10 倍。

Fable 做架构。Codex 以 GPT-5.5 的质量执行。你几乎不会触及你的 Claude 限制。

设置时间不到 5 分钟：

步骤 1：在你的机器上安装 Codex CLI

bash

1npm install -g @openai/codex

步骤 2：在 Claude Code 中添加插件

text

1/plugin marketplace add openai/codex-plugin-cc
2/plugin install codex@openai-codex
3/codex:setup

步骤 3：在 Claude Code 中创建两个子 Agent

text

1/agents
2
3→ deep-reasoner
4  模型：Opus 4.8
5  指令："用于推理密集型阶段、架构设计、
6  复杂问题调试。深入思考，返回一个编排器
7  可以据此行动的简洁结论。"
8
9→ fast-worker
10  模型：Sonnet 5
11  指令："用于机械性任务、样板代码、测试、
12  格式化、简单编辑。高效执行。"

步骤 4：让 Fable 为 Codex 编写一个 SKILL.md

text

1编写一个 SKILL.md，精确地教会 Codex 如何：
2- 阅读并执行实现计划
3- 运行测试并将结果报告给你
4- 处理此项目中的特定文件结构

确保 Codex 在机械性工作上不需要任何手把手的指导。

Fable 编写一次技能。

Codex 在以后的每次运行中都会读取它。

你的 Codex 输出质量会立即提升 10 倍。

/loop 命令（目前使用 Fable 最强大的方式）

大多数人仍然使用老式的方法提示。

你提示 → Fable 响应 → 你审查 → 你再次提示 → 重复。

在这种模式下，你就是循环。

你手动验证每一步、每一次修正、每一次跟进。

循环消除了你这个瓶颈。

它是如何工作的：

你预先给 Fable 一个目标。

它会启动子 Agent 来朝着这个目标工作。

这些 Agent 自我提示，并在完成后向你报告。

两个命令：

text

1/goal — 定义任务和最终状态
2
3结构：
4/goal [任务] 直到 [可衡量的最终状态] 而不 [约束条件]
5
6示例：
7/goal 重构认证模块，直到所有 47 个测试通过
8而不触及支付服务或数据库模式

text

1/loop — 按计划自动运行提示
2
3结构：
4/loop [你的提示] --interval 30m --expires 8h
5
6示例：
7/loop 对所有 API 端点运行安全检查
8--interval 24h --expires 7d

组合使用：

text

1/goal 重建仪表板组件，直到移动端 Lighthouse
2得分超过 90，而不破坏现有测试
3
4/loop 每 6 小时运行一次上述 /goal，持续 48 小时

Fable 设计循环。更便宜的模型在循环内执行那 80% 的工作。Fable 只在循环结束或遇到障碍时重新介入。

你醒来时，任务已经完成了。

[INSERT IMAGE 5 — PROMPT BELOW]

现在就在 Fable 上运行的 7 个提示

这些是在将 Fable 用于其他任何事情之前，用它来做的最具杠杆效应的事情。

不是氛围编码。

不是发布功能。

而是磨砺你已有的每一个系统。

1. 找出真正值得在 Fable 上运行的任务

text

1你是 Fable 5，目前能力最强的模型。
2
3浏览我的项目、文档和记忆。
4
5列出真正值得在你身上运行的前 5 个任务。
6
7每个任务用一行理由进行排名。
8
9先不要做具体工作。

2. 在构建任何东西之前，重新设计你的构建方式

text

1我希望你彻底审计并重新设计我的编码工作流。
2
3这是我目前的工作方式：[描述你的流程]
4
5我的目标是：[你想要发布什么]
6
7审查、审计、磨砺并改进我的系统。
8
9不要写代码。在运行工厂之前，先重新设计工厂。

3. 规划大项目——先不要构建它

text

1我想规划：[描述项目]
2
3先不要构建。
4
5列出完整的计划：阶段、关键决策、风险
6和未解决的问题。
7
8标记任何可能导致项目失败的因素。
9
10使计划足够清晰，以便 Sonnet 或 Codex 可以
11逐步执行，而无需向我提问。

4. 在发布前找出所有问题

text

1我即将发布这个项目。
2
3先找出它所有的问题。
4
5阅读整个代码库。
6
7寻找真正的 Bug、有问题的边缘情况，以及任何
8会在用户面前出问题的地方。
9
10列出每个问题，包括：如何复现以及修复方法。
11
12标准要高。要毫不留情。

5. 从头重建你的 CLAUDE.md

text

1阅读我当前的 CLAUDE.md。
2
3它是为旧模型编写的，而且过于臃肿。
4
5更短、更清晰的指令在 Fable 上表现更好，成本也更低。
6
7重写它：
8- 移除 Fable 不再需要的指令
9- 精简每一个工作流
10- 添加我们对话中的模型路由表
11- 尽可能将每个部分控制在 5 行以内
12
13Fable 会自己搞定剩下的部分。

6. 从它了解你的所有信息中获取商业建议

text

1你是我的商业顾问。
2
3阅读我的计划文档、已连接的工具和记忆。
4
5写一份一页纸的评估，关于我的业务以及：
6- 未来 3 个月需要关注的前 3 件事
7- 应该放弃什么以及为什么
8- 我可能忽视的一件事

7. 自动安全扫描

text

1/loop 对我所有的 API 端点运行安全检查。
2
3查找：暴露的密钥、缺失的身份验证、速率限制漏洞、
4注入向量，以及任何恶意用户可能利用的东西。
5
6仅报告真实问题，并附上严重性评级。
7
8--interval 24h --expires 7d

努力级别——最容易被误解的设置

大多数人默认使用最大或极高。

这是错误的。

以下是每个级别实际发生的情况：

→ 低：快速、便宜，对于简单任务来说出人意料地强大。很多人报告在这里获得了惊人的输出。

→ 中：最佳平衡点。中等设置的 Fable 比极高设置的 Opus 表现更好。默认使用这个。

→ 高：用于：困难的调试、多文件重构、架构决策。真正的推理能力。

→ 极高 / 最大： Token 熔炉。通常产生的输出比高设置更差。仅保留给你遇到过的最困难的问题。

规则：从中等开始。只有当质量确实不达标时才切换到高。绝不要默认使用最大。

还有一个会扼杀预算的设置：

扩展思考——默认保持关闭。

只在确实需要时才打开它。永久保持打开就像让引擎在车道上一直空转。

/handoff 技巧——修复上下文窗口膨胀

长时间的会话是一个无声的杀手。

每一轮都会重新发送完整的对话历史。

一个 200k Token 的会话会成为你账单上最昂贵的东西。

解决方法：频繁开启新的聊天。

但你不想在这样做时丢失上下文。

使用 /handoff 技能：

text

1给我一个提示，我可以用它在新的聊天中重新开始这个会话，
2而不会丢失我们任何上下文。
3
4包括：
5- 我们决定了什么
6- 我们构建了什么
7- 接下来的步骤是什么
8- 我必须记住的任何重要约束条件
9
10使其少于 500 Token，这样新会话就能轻量启动。

复制那个输出。

打开新的聊天。

粘贴进去。

以极低的上下文成本，从你离开的地方精确继续。

每 30–60 分钟开启一个新会话 = 巨大的 Token 节省。

要避免的 4 个昂贵错误

错误 1：Fable 现在是默认模型。

当你打开 Claude Code 时，它会自动使用 Fable。

在每次会话前检查模型选择器。

这个简单的习惯已经多次让我抓到自己在普通聊天中意外使用了 Fable，次数多到我不想承认。

错误 2：没有支出上限。

7 月 7 日，Fable 将移出标准订阅计划。

添加一张信用卡并立即设置一个硬性的月度上限。

设置 → 用量 → 调整限制。

Fable 在自主运行和长时间会话中消耗 Token 非常快。

没有硬性上限，一次过夜的 Agent 运行可能会在你醒来前累积一笔账单。

已经有人因为一个提示被收取了 960 美元。

今晚就设置上限。

错误 3：要求它解释其推理过程。

那一个请求可能会触发分类器，你的工作会悄悄地被一个较弱的模型处理，而你却以为你还在使用 Fable。

跳过那些“为什么”的请求。判断输出质量，而不是过程。

错误 4：零碎地给它小提示。

Fable 可以在其“脑海”中保存数小时的上下文。

一次性把整个混乱的东西给它。

完整的上下文。约束条件。你真正担心的是什么。

我曾在一个简短的提示中，把一项我害怕了好几周的重构任务交给了 Fable。它回来时已经完成了。

零碎地给它提示浪费了它最擅长的一件事。

模型成本对比——了解你实际在支付什么

在你路由任何任务之前，了解每个模型的价格：

模型输入（$/M）输出（$/M）最适合

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Fable 5 ~$15 ~$75 规划、审查

Opus 4.8 ~$5 ~$25 深度推理

Sonnet 5 ~$3 ~$15 标准执行

Kimi K2.7 ~$0.95 ~$4.00 批量编码、长上下文

GLM-5.2 ~$1.40 ~$4.40 仓库级工作

DeepSeek v4 ~$0.28 ~$1.10 极其廉价的苦力工作

Haiku 4.5 ~$1 ~$5 清理、格式化

本地（Qwen/Llama） $0 $0 自动补全、样板代码

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Fable 和 DeepSeek 之间的差距：输入 53 倍。输出 68 倍。

同一个 30 步重构 Agent：→ 全部使用 Fable：每次运行约 25 美元 → Fable 规划 + Kimi 执行：每次运行约 1.40 美元 → 相同的已发布代码。相同的测试通过。

路由不是为了省钱。

而是为了精确。

完整系统——运行时的样子

在这个系统之前：

→ 所有任务都路由到 Fable

→ 每次发布时账单都会飙升

→ 使用额度在会话中途达到上限

→ 你像预算紧张的旅行者一样精打细算地使用提示

在这个系统之后：

→ Fable 处理那 10% 真正需要它的工作

→ 便宜的模型处理那 80% 的执行工作

→ /loop 在夜间运行，不触及你的限制

→ 你发布更多，花费更少，永远不会达到速率限制

三行总结：

Fable 规划。其他模型执行。Fable 审查。

在你改变任何其他东西之前，这一条规则就能将你的账单降低 50% 以上。

剩下的就是优化。

今晚就运行这个

现在就把它放入 Fable：

阅读我当前的 CLAUDE.md 和我所有活跃的项目。

你的任务：为我的工作流设置 10-80-10 路由系统。

创建：

更新后的 CLAUDE.md，包含完整的模型路由表
我当前活跃任务的列表，按每个任务应由哪个模型处理进行排序
三个 /goal 提示，我可以根据你在我的项目中看到的内容，今晚在更便宜的模型上运行

不要执行任何东西。只需规划和路由。

Fable 做规划。

你醒来时拥有一个完整的路由系统。

以及一份不会让你心脏病发作的账单。

如果这篇文章帮你省了钱：

→ 转发，让其他开发者不再烧掉他们的预算

→ 关注 @sairahul1 获取更多此类系统

→ 收藏本文——CLAUDE.md 配置是有效的，今晚就粘贴进去

订阅 theaibuilders.co 获取更多此类有趣文章

我写关于 AI、产品构建以及在你睡觉时也能运行的系统。

资源：

→ Entelligence Token 路由器：entelligence.ai/blogs/entelligence-token-router

→ 将账单削减 80% 的三模型工作流：entelligence.ai/blogs/our-three-model-coding-workflow-that-cut-our-ai-bill-80

→ Claude Code：claude.ai/code

→ Codex CLI：npmjs.com/package/@openai/codex

如何在使用 Claude Fable 5 时避免预算超支

10-80-10 系统（Anthropic 工程师们自己使用的精确框架）

CLAUDE.md 路由表（一个控制一切的文件）

帮我节省了 70% Token 的精确 CLAUDE.md 设置

安装 Codex 插件——倍增器操作

/loop 命令（目前使用 Fable 最强大的方式）

现在就在 Fable 上运行的 7 个提示

努力级别——最容易被误解的设置

/handoff 技巧——修复上下文窗口膨胀

要避免的 4 个昂贵错误

模型成本对比——了解你实际在支付什么

完整系统——运行时的样子

今晚就运行这个

如果这篇文章帮你省了钱：

资源：

使用 YouMind 创作爆款文章

近期爆款文章

私募股权行业低估了 AI 的潜力

7 月 7 日前必须尝试的 5 个 Fable 5 使用场景

哈佛研究：收入与时间分配之间的联系——5 个提升成果的问题

如何利用 Fable 5 构建“第二大脑”

感谢一切：我从 Rakuten 的离职感言

如何利用 Claude Fable 5 获利（完整指南）

如何在使用 Claude Fable 5 时避免预算超支

10-80-10 系统 （Anthropic 工程师们自己使用的精确框架）

CLAUDE.md 路由表 （一个控制一切的文件）

帮我节省了 70% Token 的精确 CLAUDE.md 设置

安装 Codex 插件——倍增器操作

/loop 命令 （目前使用 Fable 最强大的方式）

现在就在 Fable 上运行的 7 个提示

努力级别——最容易被误解的设置

/handoff 技巧——修复上下文窗口膨胀

要避免的 4 个昂贵错误

模型成本对比——了解你实际在支付什么

完整系统——运行时的样子

今晚就运行这个

如果这篇文章帮你省了钱：

资源：

使用 YouMind 创作爆款文章

把你的 Markdown 变成干净的 𝕏 文章

近期爆款文章

私募股权行业低估了 AI 的潜力

7 月 7 日前必须尝试的 5 个 Fable 5 使用场景

哈佛研究：收入与时间分配之间的联系——5 个提升成果的问题

如何利用 Fable 5 构建“第二大脑”

感谢一切：我从 Rakuten 的离职感言

如何利用 Claude Fable 5 获利（完整指南）

10-80-10 系统（Anthropic 工程师们自己使用的精确框架）

CLAUDE.md 路由表（一个控制一切的文件）

/loop 命令（目前使用 Fable 最强大的方式）