如何在使用 Claude Fable 5 时避免预算超支

@sairahul1
英语1天前 · 2026年7月03日
104K
108
14
16
306

TL;DR

本指南介绍了适用于 Claude Fable 5 的 10-80-10 系统,即利用高端模型进行规划与审核,同时将执行任务委派给 Opus 和 Haiku 等更经济的模型。

Fable 5 是我用过的最好的 AI 模型。

但它也贵得离谱。

在最初几个小时的测试中,我几乎用光了我的全部使用额度。

而且我还没做什么特别疯狂的事。

Fable 的成本是 Opus 4.8 的两倍。

而且因为它太聪明了,它实际上会过度思考——运行循环并消耗 Token,这是之前的 Claude 模型从未有过的。

大多数人使用它的方式完全错了。

以下是我构建的精确系统,可以将我的 Fable Token 成本降低 50% 以上。

没有新工具。输出量不变。只是更智能的路由。

每个人在第一天都会犯的错误

你打开 Claude Code。

Fable 现在是默认模型。

你开始聊天。

你让它修复一个拼写错误。你让它格式化一些 JSON。你让它重命名一个变量。

Fable 思考了 12 秒,消耗了 8,000 个推理 Token,返回了答案。

成本:0.60 美元,完成了一个 Haiku 本可以用 0.02 美元搞定的任务。

你是在为闲聊支付外科医生的费用。

Fable 是一位架构师。

不是你的室友。

一旦你内化了这一点,一切都会改变。

Rahul - inline image

10-80-10 系统 (Anthropic 工程师们自己使用的精确框架)

每个 Fable 项目都有三个阶段。

大多数人都在 Fable 上运行所有三个阶段。

明智的做法是只在 Fable 上运行其中两个阶段。

最初的 10%——规划

这是 Fable 物有所值的地方。

在任何项目开始之前,使用 Fable 来定义:

→ 结构和方案 → 成功标准 → 约束条件和边缘情况 → 可能出错的地方

想象一下盖房子。

最昂贵的错误是给建筑工人一张糟糕的蓝图。

首先要确保架构正确。

Fable 在这方面非常出色。

中间的 80%——执行

这是大多数 Token 被消耗的地方。

反复沟通。迭代。实现循环。实际完成任务所需的繁琐工作。

Fable 不需要参与这部分。

切换到 Opus 4.8 处理标准工作。使用 Haiku 处理轻量级任务。使用 Codex 或 GPT-5.5 处理机械性执行工作。

你获得了 Fable 级别的架构,而无需为每一个执行 Token 支付 Fable 的价格。

最后的 10%——审查

让 Fable 重新介入。

让它根据原始计划审查输出:

→ 结果是否符合架构?

→ 是否有遗漏的差距或边缘情况?

→ 在发布前是否需要修复任何问题?

因为 Fable 审查的是完成的输出,而不是从头开始生成,所以它消耗的 Token 数量只是完成整个任务所需的一小部分。

[INSERT IMAGE 2 — PROMPT BELOW]

Rahul - inline image

CLAUDE.md 路由表 (一个控制一切的文件)

这是最大的解锁。

在你的 CLAUDE.md 中维护一个单一的路由表。

让 Fable 充当编排器,读取该表并自动将工作分派给正确的模型。

这是我使用的精确路由表:

markdown
1## 模型路由表
2
3### Fable 5(仅限编排器)
4用于:规划、架构、审查最终输出
5绝不用于:机械性任务、批量生成、样板代码
6努力级别:高(绝不用极高——它是个 Token 熔炉,输出反而更差)
7
8### Opus 4.8(深度推理执行器)
9用于:复杂调试、多步骤推理、任何需要真正思考但不是架构设计的工作
10成本层级:标准
11
12### Sonnet 5(机械性工作执行器)
13用于:代码生成、重构、标准功能开发
14成本层级:便宜
15
16### Codex / GPT-5.5(同级执行器)
17用于:实现任务、UI/UX 验证、规格明确的执行工作
18注意:Fable 可以学会引导 Codex——教它一次如何做
19成本层级:在 Codex 计划下通常免费
20
21### Haiku(批量执行器)
22用于:格式化、代码检查、简单编辑、样板代码、重命名重构、测试脚手架
23绝不让 Haiku 生成进一步的子 Agent
24成本层级:最便宜
25
26### Kimi / GLM-5.2(长上下文执行器)
27用于:读取大文件、长期仓库分析,这样 Fable 就无需消耗 Token
28成本层级:非常便宜
29
30### DeepSeek / Qwen(极其廉价的苦力工作)
31用于:样板代码、测试编写、数据清洗、翻译、初稿文档、批量生成
32成本层级:近乎免费

Fable 从不直接接触廉价的工作。

它进行规划,分派给合适的层级,然后根据计划检查结果。

这个昂贵的大脑只花 Token 来做决策。

就是这一个文件,让我的账单下降了,而我的产出却上升了。

Rahul - inline image

帮我节省了 70% Token 的精确 CLAUDE.md 设置

这是我放入 CLAUDE.md 的完整编排部分:

markdown
1## 编排工作流
2
3你(Fable)是编排器。负责规划、分解、综合。
4不要自己执行机械性任务。
5
6### 分派规则:
7- 推理密集型阶段 → 深度推理器(Opus 4.8)
8- 机械性工作 → 快速工作者(Sonnet/Haiku)
9- 代码库分析 / 大文件 → Kimi(长上下文)
10- 样板代码 / 批量任务 → DeepSeek 或 Qwen
11- 来自不同视角的同行评审 → Codex
12
13### Codex 是同级,不是审查者:
14将 Codex 视为来自不同视角的、技术超强的高级工程师。
15对于高风险决策:让 Opus 和 Codex 并行处理同一个问题,
16综合两者的最佳结果,而不向任何一方展示另一方的答案。
17
18### 上下文纪律:
19保持你自己的上下文精简。
20绝不重新读取你已经处理过的文件。
21在将工具输出反馈到上下文之前,先进行总结。
22要求模型返回你可以据此行动的简洁结论。
23
24### 努力级别:
25- 规划和架构:高努力
26- 审查通过:中等努力
27- 默认情况下绝不使用极高/最大——成本更高,效果通常更差

现在像技术负责人一样提示 Fable:

markdown
1目标:[你想要什么]
2上下文:[文件、约束条件、你担心什么]
3
4你是负责人。
5将推理任务分派给深度推理器(Opus)。
6将苦力工作分派给快速工作者(Sonnet/Haiku)。
7使用 Codex 处理需要新视角的问题。
8
9先向我展示你的计划,然后执行。

就是这样。

Fable 负责规划。其他所有模型负责执行。账单保持平稳。

安装 Codex 插件——倍增器操作

这是大多数人跳过的设置。

Codex 和 Fable 结合使用,效果是单独使用 Fable 的 10 倍。

Fable 做架构。Codex 以 GPT-5.5 的质量执行。你几乎不会触及你的 Claude 限制。

设置时间不到 5 分钟:

步骤 1:在你的机器上安装 Codex CLI

bash
1npm install -g @openai/codex

步骤 2:在 Claude Code 中添加插件

text
1/plugin marketplace add openai/codex-plugin-cc
2/plugin install codex@openai-codex
3/codex:setup

步骤 3:在 Claude Code 中创建两个子 Agent

text
1/agents
2
3→ deep-reasoner
4 模型:Opus 4.8
5 指令:"用于推理密集型阶段、架构设计、
6 复杂问题调试。深入思考,返回一个编排器
7 可以据此行动的简洁结论。"
8
9→ fast-worker
10 模型:Sonnet 5
11 指令:"用于机械性任务、样板代码、测试、
12 格式化、简单编辑。高效执行。"

步骤 4:让 Fable 为 Codex 编写一个 SKILL.md

text
1编写一个 SKILL.md,精确地教会 Codex 如何:
2- 阅读并执行实现计划
3- 运行测试并将结果报告给你
4- 处理此项目中的特定文件结构

确保 Codex 在机械性工作上不需要任何手把手的指导。

Fable 编写一次技能。

Codex 在以后的每次运行中都会读取它。

你的 Codex 输出质量会立即提升 10 倍。

Rahul - inline image

/loop 命令 (目前使用 Fable 最强大的方式)

大多数人仍然使用老式的方法提示。

你提示 → Fable 响应 → 你审查 → 你再次提示 → 重复。

在这种模式下,你就是循环。

你手动验证每一步、每一次修正、每一次跟进。

循环消除了你这个瓶颈。

它是如何工作的:

你预先给 Fable 一个目标。

它会启动子 Agent 来朝着这个目标工作。

这些 Agent 自我提示,并在完成后向你报告。

两个命令:

text
1/goal — 定义任务和最终状态
2
3结构:
4/goal [任务] 直到 [可衡量的最终状态] 而不 [约束条件]
5
6示例:
7/goal 重构认证模块,直到所有 47 个测试通过
8而不触及支付服务或数据库模式
text
1/loop — 按计划自动运行提示
2
3结构:
4/loop [你的提示] --interval 30m --expires 8h
5
6示例:
7/loop 对所有 API 端点运行安全检查
8--interval 24h --expires 7d

组合使用:

text
1/goal 重建仪表板组件,直到移动端 Lighthouse
2得分超过 90,而不破坏现有测试
3
4/loop 每 6 小时运行一次上述 /goal,持续 48 小时

Fable 设计循环。更便宜的模型在循环内执行那 80% 的工作。Fable 只在循环结束或遇到障碍时重新介入。

你醒来时,任务已经完成了。

[INSERT IMAGE 5 — PROMPT BELOW]

现在就在 Fable 上运行的 7 个提示

这些是在将 Fable 用于其他任何事情之前,用它来做的最具杠杆效应的事情。

不是氛围编码。

不是发布功能。

而是磨砺你已有的每一个系统。

1. 找出真正值得在 Fable 上运行的任务

text
1你是 Fable 5,目前能力最强的模型。
2
3浏览我的项目、文档和记忆。
4
5列出真正值得在你身上运行的前 5 个任务。
6
7每个任务用一行理由进行排名。
8
9先不要做具体工作。

2. 在构建任何东西之前,重新设计你的构建方式

text
1我希望你彻底审计并重新设计我的编码工作流。
2
3这是我目前的工作方式:[描述你的流程]
4
5我的目标是:[你想要发布什么]
6
7审查、审计、磨砺并改进我的系统。
8
9不要写代码。在运行工厂之前,先重新设计工厂。

3. 规划大项目——先不要构建它

text
1我想规划:[描述项目]
2
3先不要构建。
4
5列出完整的计划:阶段、关键决策、风险
6和未解决的问题。
7
8标记任何可能导致项目失败的因素。
9
10使计划足够清晰,以便 Sonnet 或 Codex 可以
11逐步执行,而无需向我提问。

4. 在发布前找出所有问题

text
1我即将发布这个项目。
2
3先找出它所有的问题。
4
5阅读整个代码库。
6
7寻找真正的 Bug、有问题的边缘情况,以及任何
8会在用户面前出问题的地方。
9
10列出每个问题,包括:如何复现以及修复方法。
11
12标准要高。要毫不留情。

5. 从头重建你的 CLAUDE.md

text
1阅读我当前的 CLAUDE.md。
2
3它是为旧模型编写的,而且过于臃肿。
4
5更短、更清晰的指令在 Fable 上表现更好,成本也更低。
6
7重写它:
8- 移除 Fable 不再需要的指令
9- 精简每一个工作流
10- 添加我们对话中的模型路由表
11- 尽可能将每个部分控制在 5 行以内
12
13Fable 会自己搞定剩下的部分。

6. 从它了解你的所有信息中获取商业建议

text
1你是我的商业顾问。
2
3阅读我的计划文档、已连接的工具和记忆。
4
5写一份一页纸的评估,关于我的业务以及:
6- 未来 3 个月需要关注的前 3 件事
7- 应该放弃什么以及为什么
8- 我可能忽视的一件事

7. 自动安全扫描

text
1/loop 对我所有的 API 端点运行安全检查。
2
3查找:暴露的密钥、缺失的身份验证、速率限制漏洞、
4注入向量,以及任何恶意用户可能利用的东西。
5
6仅报告真实问题,并附上严重性评级。
7
8--interval 24h --expires 7d
Rahul - inline image

努力级别——最容易被误解的设置

大多数人默认使用最大或极高。

这是错误的。

以下是每个级别实际发生的情况:

低: 快速、便宜,对于简单任务来说出人意料地强大。很多人报告在这里获得了惊人的输出。

中: 最佳平衡点。中等设置的 Fable 比极高设置的 Opus 表现更好。默认使用这个。

高: 用于:困难的调试、多文件重构、架构决策。真正的推理能力。

极高 / 最大: Token 熔炉。通常产生的输出比高设置更差。仅保留给你遇到过的最困难的问题。

规则:从中等开始。只有当质量确实不达标时才切换到高。绝不要默认使用最大。

还有一个会扼杀预算的设置:

扩展思考——默认保持关闭。

只在确实需要时才打开它。永久保持打开就像让引擎在车道上一直空转。

/handoff 技巧——修复上下文窗口膨胀

长时间的会话是一个无声的杀手。

每一轮都会重新发送完整的对话历史。

一个 200k Token 的会话会成为你账单上最昂贵的东西。

解决方法:频繁开启新的聊天。

但你不想在这样做时丢失上下文。

使用 /handoff 技能:

text
1给我一个提示,我可以用它在新的聊天中重新开始这个会话,
2而不会丢失我们任何上下文。
3
4包括:
5- 我们决定了什么
6- 我们构建了什么
7- 接下来的步骤是什么
8- 我必须记住的任何重要约束条件
9
10使其少于 500 Token,这样新会话就能轻量启动。

复制那个输出。

打开新的聊天。

粘贴进去。

以极低的上下文成本,从你离开的地方精确继续。

每 30–60 分钟开启一个新会话 = 巨大的 Token 节省。

Rahul - inline image

要避免的 4 个昂贵错误

错误 1:Fable 现在是默认模型。

当你打开 Claude Code 时,它会自动使用 Fable。

在每次会话前检查模型选择器。

这个简单的习惯已经多次让我抓到自己在普通聊天中意外使用了 Fable,次数多到我不想承认。

错误 2:没有支出上限。

7 月 7 日,Fable 将移出标准订阅计划。

添加一张信用卡并立即设置一个硬性的月度上限。

设置 → 用量 → 调整限制。

Fable 在自主运行和长时间会话中消耗 Token 非常快。

没有硬性上限,一次过夜的 Agent 运行可能会在你醒来前累积一笔账单。

已经有人因为一个提示被收取了 960 美元。

今晚就设置上限。

错误 3:要求它解释其推理过程。

那一个请求可能会触发分类器,你的工作会悄悄地被一个较弱的模型处理,而你却以为你还在使用 Fable。

跳过那些“为什么”的请求。判断输出质量,而不是过程。

错误 4:零碎地给它小提示。

Fable 可以在其“脑海”中保存数小时的上下文。

一次性把整个混乱的东西给它。

完整的上下文。约束条件。你真正担心的是什么。

我曾在一个简短的提示中,把一项我害怕了好几周的重构任务交给了 Fable。它回来时已经完成了。

零碎地给它提示浪费了它最擅长的一件事。

Rahul - inline image

模型成本对比——了解你实际在支付什么

在你路由任何任务之前,了解每个模型的价格:

模型 输入($/M) 输出($/M) 最适合

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Fable 5 ~$15 ~$75 规划、审查

Opus 4.8 ~$5 ~$25 深度推理

Sonnet 5 ~$3 ~$15 标准执行

Kimi K2.7 ~$0.95 ~$4.00 批量编码、长上下文

GLM-5.2 ~$1.40 ~$4.40 仓库级工作

DeepSeek v4 ~$0.28 ~$1.10 极其廉价的苦力工作

Haiku 4.5 ~$1 ~$5 清理、格式化

本地(Qwen/Llama) $0 $0 自动补全、样板代码

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Fable 和 DeepSeek 之间的差距:输入 53 倍。输出 68 倍。

同一个 30 步重构 Agent:→ 全部使用 Fable:每次运行约 25 美元 → Fable 规划 + Kimi 执行:每次运行约 1.40 美元 → 相同的已发布代码。相同的测试通过。

路由不是为了省钱。

而是为了精确。

Rahul - inline image

完整系统——运行时的样子

在这个系统之前:

→ 所有任务都路由到 Fable

→ 每次发布时账单都会飙升

→ 使用额度在会话中途达到上限

→ 你像预算紧张的旅行者一样精打细算地使用提示

在这个系统之后:

→ Fable 处理那 10% 真正需要它的工作

→ 便宜的模型处理那 80% 的执行工作

→ /loop 在夜间运行,不触及你的限制

→ 你发布更多,花费更少,永远不会达到速率限制

三行总结:

Fable 规划。其他模型执行。Fable 审查。

在你改变任何其他东西之前,这一条规则就能将你的账单降低 50% 以上。

剩下的就是优化。

今晚就运行这个

现在就把它放入 Fable:

阅读我当前的 CLAUDE.md 和我所有活跃的项目。

你的任务:为我的工作流设置 10-80-10 路由系统。

创建:

  1. 更新后的 CLAUDE.md,包含完整的模型路由表
  2. 我当前活跃任务的列表,按每个任务应由哪个模型处理进行排序
  3. 三个 /goal 提示,我可以根据你在我的项目中看到的内容,今晚在更便宜的模型上运行

不要执行任何东西。只需规划和路由。

Fable 做规划。

你醒来时拥有一个完整的路由系统。

以及一份不会让你心脏病发作的账单。

如果这篇文章帮你省了钱:

→ 转发,让其他开发者不再烧掉他们的预算

→ 关注 @sairahul1 获取更多此类系统

→ 收藏本文——CLAUDE.md 配置是有效的,今晚就粘贴进去

订阅 theaibuilders.co 获取更多此类有趣文章

我写关于 AI、产品构建以及在你睡觉时也能运行的系统。

资源:

→ Entelligence Token 路由器:entelligence.ai/blogs/entelligence-token-router

→ 将账单削减 80% 的三模型工作流:entelligence.ai/blogs/our-three-model-coding-workflow-that-cut-our-ai-bill-80

→ Claude Code:claude.ai/code

→ Codex CLI:npmjs.com/package/@openai/codex

使用 YouMind 创作爆款文章

收集素材、拆解爆点、生成视觉资产、撰写内容,并在一个 AI 工作空间里完成分发。

了解 YouMind
写给创作者

把你的 Markdown 变成干净的 𝕏 文章

图片上传、表格、代码块,往 𝕏 上手动重排太痛苦。YouMind 把整篇 Markdown 一键转成干净、可直接发布的 𝕏 文章草稿。

试试 Markdown 转 𝕏

更多可拆解样本

近期爆款文章

探索更多爆款文章