Fable 5 は、私がこれまで使った中で最高の AI モデルです。
同時に、とんでもなく高価です。
テストを始めて最初の数時間で、使用制限をほぼ使い切ってしまいました。
しかも、特別なことをしていたわけでもありません。
Fable は Opus 4.8 の 2 倍のコストがかかります。
そして、非常に賢いがゆえに、考えすぎてしまい — これまでの Claude モデルにはなかった方法でループを実行し、トークンを消費します。
ほとんどの人は、Fable を完全に間違った方法で使っています。
以下は、私が Fable のトークンコストを 50% 以上削減するために構築した正確なシステムです。
新しいツールは不要。出力量も減らしません。よりスマートなルーティングだけです。
誰もが初日に犯す間違い
Claude Code を開きます。
Fable がデフォルトのモデルになっています。
チャットを始めます。
タイプミスの修正を依頼します。JSON のフォーマットを依頼します。変数の名前変更を依頼します。
Fable は 12 秒間考え、8,000 トークンの推論を消費し、答えを返します。
コスト: Haiku なら $0.02 で確実にできたタスクに $0.60。
雑談に外科医の料金を払っているようなものです。
Fable は建築家です。
ルームメイトではありません。
これを理解した瞬間、すべてが変わります。

10-80-10 システム (Anthropic のエンジニア自身が使用する正確なフレームワーク)
すべての Fable プロジェクトには 3 つのフェーズがあります。
ほとんどの人は、3 つすべてを Fable で実行します。
賢い方法は、そのうちの 2 つだけを Fable で実行することです。
最初の 10% — 計画
ここで Fable はその価格に見合う価値を発揮します。
プロジェクトを開始する前に、Fable を使用して以下を定義します。
→ 構造とアプローチ → 成功基準 → 制約とエッジケース → 何がうまくいかない可能性があるか
家を建てることを考えてみてください。
最も高くつくミスは、建築業者に悪い設計図を渡すことです。
まずアーキテクチャを正しく設定しましょう。
Fable はこれに非常に優れています。
中間の 80% — 実行
ここでほとんどのトークンが消費されます。
やり取り。反復。実装ループ。タスクを実際に完了するための地道な作業。
Fable はここにいる必要はありません。
標準的な作業には Opus 4.8 に切り替えてください。軽いタスクには Haiku を使用してください。機械的な実行には Codex または GPT-5.5 を使用してください。
実行のすべてのトークンに Fable の料金を支払うことなく、Fable 品質のアーキテクチャを手に入れることができます。
最後の 10% — レビュー
Fable を再び呼び戻します。
元の計画に照らして出力をレビューさせます。
→ 結果はアーキテクチャと一致していますか?
→ 見逃したギャップやエッジケースはありますか?
→ リリース前に修正が必要なものはありますか?
Fable はゼロから生成するのではなく、完成した出力をレビューするため、タスク全体を行う場合に消費していたであろうトークンのごく一部しか使用しません。
[INSERT IMAGE 2 — PROMPT BELOW]

CLAUDE.md ルーティングテーブル (すべてを制御する 1 つのファイル)
これが最大の突破口です。
CLAUDE.md に 1 つのルーティングテーブルを保持します。
Fable をオーケストレーターとして機能させ、それを読み取り、適切なモデルに自動的に作業をディスパッチさせます。
以下が私が使用している正確なルーティングテーブルです。
1## モデルルーティングテーブル23### Fable 5(オーケストレーターのみ)4使用する場面: 計画、アーキテクチャ、最終出力のレビュー5決して使用しない場面: 機械的なタスク、一括生成、ボイラープレート6努力レベル: high(決して xhigh ではない — トークンを消費するだけで出力が悪化する)78### Opus 4.8(深い推論の実行者)9使用する場面: 複雑なデバッグ、多段階の推論、アーキテクチャではないが10 本当の思考が必要なもの全般11コスト層: 標準1213### Sonnet 5(機械的な作業の実行者)14使用する場面: コード生成、リファクタリング、標準的な機能開発15コスト層: 安い1617### Codex / GPT-5.5(ピア実行者)18使用する場面: 実装タスク、UI/UX 検証、19 仕様が明確な実行作業20注: Fable は Codex を操ることを学習できます — 一度教え込めばそれで十分21コスト層: Codex プランでは無料の場合が多い2223### Haiku(一括実行者)24使用する場面: フォーマット、lint、簡単な編集、ボイラープレート、25 名前変更のリファクタリング、テストの土台作成26Haiku からさらにサブエージェントを生成しないこと27コスト層: 最も安い2829### Kimi / GLM-5.2(長いコンテキストの実行者)30使用する場面: 巨大なファイルの読み取り、長期的なリポジトリ分析31 Fable がトークンを消費しないようにするため32コスト層: 非常に安い3334### DeepSeek / Qwen(非常に安い雑用)35使用する場面: ボイラープレート、テスト作成、データクリーニング、36 翻訳、初稿ドキュメント、一括生成37コスト層: ほぼ無料
Fable は安価な作業に直接関与することはありません。
計画を立て、適切な層に委任し、計画に照らして結果を確認します。
高価な頭脳は、決定を下すためだけにトークンを消費します。
この 1 つのファイルのおかげで、私の請求額は下がり、出力は増えました。

トークンの 70% を節約した正確な CLAUDE.md 設定
以下は、私が CLAUDE.md に追加したオーケストレーションセクション全体です。
1## オーケストレーションワークフロー23あなた(Fable)はオーケストレーターです。計画、分解、統合を行います。4機械的なタスクは自分で実行しないでください。56### 委任ルール:7- 推論が重要なフェーズ → deep-reasoner(Opus 4.8)8- 機械的な作業 → fast-worker(Sonnet/Haiku)9- コードベース分析 / 巨大なファイル → Kimi(長いコンテキスト)10- ボイラープレート / 一括処理 → DeepSeek または Qwen11- 異なる視点からのピアレビュー → Codex1213### Codex はレビュアーではなく、ピアです:14Codex を、異なる視点を持つ優秀なシニアエンジニアとして扱ってください。15重要な決定の場合: Opus と Codex に同じ問題を並行してタスクとして与え、16互いの答えを見せずに両方の最良の部分を統合してください。1718### コンテキストの規律:19自身のコンテキストは最小限に保ってください。20既に処理したファイルを再読み取りしないでください。21コンテキストにフィードバックする前に、ツールの出力を要約してください。22モデルには、あなたが行動に移せる簡潔な結論を返すように依頼してください。2324### 努力レベル:25- 計画とアーキテクチャ: high effort26- レビューパス: medium effort27- デフォルトで xhigh/max を使用しないでください — コストが高く、出力が悪化することが多い
次に、Fable をテックリードのようにプロンプトします。
1目標: [あなたが望むもの]2コンテキスト: [ファイル、制約、懸念事項]34あなたはリーダーです。5推論は deep-reasoner(Opus)に委任してください。6雑用は fast-worker(Sonnet/Haiku)に委任してください。7新しい視点が必要な問題には Codex を使用してください。8まず計画を示し、その後実行してください。
これだけです。
Fable が計画します。他のすべてが実行します。請求額は一定のままです。
Codex プラグインのインストール — 効果を倍増させる方法
これはほとんどの人がスキップする設定です。
Codex + Fable を組み合わせると、Fable 単独よりも 10 倍優れています。
Fable がアーキテクチャを担当します。Codex が GPT-5.5 品質で実行します。Claude の制限にほとんど触れることはありません。
5 分以内でセットアップ:
ステップ 1: マシンに Codex CLI をインストール
1npm install -g @openai/codex
ステップ 2: Claude Code 内にプラグインを追加
1/plugin marketplace add openai/codex-plugin-cc2/plugin install codex@openai-codex3/codex:setup
ステップ 3: Claude Code 内に 2 つのサブエージェントを作成
1/agents23→ deep-reasoner4 モデル: Opus 4.85 指示: 「推論が重要なフェーズ、アーキテクチャ、6 複雑な問題のデバッグに使用します。徹底的に考え、7 オーケストレーターが行動に移せる簡潔な結論を返します。」89→ fast-worker10 モデル: Sonnet 511 指示: 「機械的なタスク、ボイラープレート、テスト、12 フォーマット、簡単な編集に使用します。効率的に実行します。」
ステップ 4: Fable に Codex 用の SKILL.md を書かせる
1Codex に以下の方法を正確に教える SKILL.md を書いてください:2- 実装計画を読み、実行する方法3- テストを実行し、結果をあなたに報告する方法4- このプロジェクトの特定のファイル構造を処理する方法
Codex が機械的な作業で一切の手助けを必要としないようにします。
Fable がスキルを一度書きます。
Codex は将来の実行ごとにそれを読みます。
あなたの Codex の出力はすぐに 10 倍向上します。

/loop コマンド (現在 Fable を最も強力に使用する方法)
ほとんどの人は依然として古い方法でプロンプトしています。
プロンプト → Fable が応答 → レビュー → 再プロンプト → 繰り返し。
そのモデルでは、あなた自身がループです。
すべてのステップ、すべての修正、すべてのフォローアップを手動で確認します。
ループは、あなたをボトルネックから解放します。
仕組み:
最初に Fable に目標を与えます。
Fable はその目標に向かって作業するサブエージェントを起動します。
エージェントは自分自身でプロンプトし、完了したら報告します。
2 つのコマンド:
1/goal — タスクと最終状態を定義23構造:4/goal [タスク] until [測定可能な最終状態] without [制約]56例:7/goal 認証モジュールをリファクタリングする until 47 個のテストすべてが合格する8without ペイメントサービスまたはデータベーススキーマに触れる
1/loop — プロンプトを自動的にスケジュール実行23構造:4/loop [プロンプト] --interval 30m --expires 8h56例:7/loop すべての API エンドポイントでセキュリティチェックを実行8--interval 24h --expires 7d
組み合わせ:
1/goal ダッシュボードコンポーネントを再構築する until Lighthouse2スコアがモバイルで 90 を超える without 既存のテストを壊す34/loop 上記の /goal を実行 --interval 6h --expires 48h
Fable がループを設計します。より安価なモデルがループ内で 80% の実行を担当します。Fable はループが閉じるか、障害に遭遇したときにのみ再び介入します。
目が覚めると、タスクは完了しています。
[INSERT IMAGE 5 — PROMPT BELOW]
今すぐ Fable で実行すべき 7 つのプロンプト
これらは、他の何かに Fable を使用する前に、Fable で行うべき最も効果的なことです。
雰囲気コーディングではありません。
機能をリリースすることでもありません。
既に持っているすべてのシステムを研ぎ澄ますことです。
1. 本当に Fable で実行する価値があるものを見つける
1あなたは Fable 5、最も高性能な利用可能なモデルです。23私のプロジェクト、ドキュメント、メモリを調べてください。45本当にあなたで実行する価値がある上位 5 つのタスクをリストアップしてください。67それぞれに 1 行の理由を付けてランク付けしてください。89まだ作業は行わないでください。
2. 何かを構築する前に、構築方法を再設計する
1私のコーディングワークフローを完全に監査し、再設計してほしい。23現在の作業方法: [あなたのプロセスを説明]45私の目標: [リリースしようとしているもの]67私のシステムをレビュー、監査、研ぎ澄まし、改善してください。89コードは書かないでください。実行する前に工場を再設計してください。
3. 大きなプロジェクトを計画する — まだ構築しない
1計画したい: [プロジェクトを説明]23まだ構築しないでください。45完全な計画を提示してください: フェーズ、重要な決定、リスク、6そして未解決の質問。78プロジェクトを頓挫させる可能性のあるものをすべて指摘してください。910Sonnet や Codex が私に質問することなく11ステップバイステップで実行できるように、計画を明確にしてください。
4. リリース前にすべての問題を見つける
1このプロジェクトをリリースしようとしています。23まず、すべての問題を見つけてください。45コードベース全体を読んでください。67実際のバグ、壊れたエッジケース、ユーザーの前で8壊れる可能性のあるものを探してください。910各問題を、再現方法と修正方法とともにリストアップしてください。1112高い基準を維持してください。容赦なく行ってください。
5. CLAUDE.md をゼロから再構築する
1現在の CLAUDE.md を読んでください。23古いモデル用に書かれており、肥大化しています。45より短く、よりクリーンな指示は、Fable でのパフォーマンスが向上し、6コストも低くなります。78書き直してください:9- Fable がもはや必要としない指示を削除10- すべてのワークフローを引き締める11- 私たちの会話からモデルルーティングテーブルを追加12- 可能な限り各セクションを 5 行未満に抑える1314残りは Fable が自分で理解します。
6. あなたについて知っているすべてのことからビジネスアドバイスを得る
1あなたは私のビジネスアドバイザーです。23私の計画書、接続されたツール、メモリを読んでください。45私のビジネスに関する 1 ページの評価と、以下を書いてください:6- 今後 3 ヶ月間集中すべき上位 3 つのこと7- やめるべきこととその理由8- 私がおそらく気づいていない 1 つのこと
7. 自動でセキュリティスイープ
1/loop すべての API エンドポイントでセキュリティチェックを実行。23探すもの: 露出したキー、認証の欠落、レート制限のギャップ、4インジェクションベクター、悪意のあるユーザーが悪用できる可能性のあるもの。56重大度評価付きの実際の問題のみを報告。78--interval 24h --expires 7d

努力レベル — 最も誤解されている設定
ほとんどの人はデフォルトで max または xhigh に設定します。
これは間違いです。
各レベルで実際に何が起こるかは次のとおりです。
→ Low: 高速、安価、単純なタスクには驚くほど有能。多くの人がここで素晴らしい出力を報告しています。
→ Medium: スイートスポット。Medium の Fable は、Extra High の Opus を上回ります。これをデフォルトにしてください。
→ High: 使用する場面: 難しいデバッグ、複数ファイルのリファクタリング、アーキテクチャの決定。真の推論力。
→ xhigh / max: トークンの炉。High よりも悪い出力を生成することがよくあります。これまで直面した中で本当に最も難しい問題のために取っておいてください。
ルール: Medium から始めてください。品質が実際に不足している場合にのみ High に移行してください。決してデフォルトで max にしないでください。
予算を消費するもう 1 つの設定:
Extended Thinking — デフォルトではオフのままにしてください。
本当に必要とする問題に対してのみオンにしてください。常にオンにしておくことは、車を駐車場でアイドリングさせ続けるようなものです。
/handoff トリック — コンテキストウィンドウの肥大化を修正
長いセッションは静かなる殺し屋です。
ターンごとに会話履歴全体が再送信されます。
200k トークンのセッションは、請求書の中で最も高額なものになります。
修正方法: 新しいチャットを頻繁に開くこと。
しかし、その際にコンテキストを失いたくはありません。
/handoff スキルを使用してください。
1このセッションを新しいチャットで再開するために使用できる2プロンプトを、コンテキストを失うことなく教えてください。34以下を含めてください:5- 私たちが決定したこと6- 私たちが構築したもの7- 次のステップ8- 私が覚えておかなければならない重要な制約910新しいセッションが軽量に開始されるように、500 トークン未満にしてください。
その出力をコピーします。
新しいチャットを開きます。
貼り付けます。
コンテキストコストを大幅に抑えて、中断したところから正確に続行します。
30〜60 分ごとに新しいセッション = 大幅なトークン節約。

避けるべき 4 つの高くつく間違い
間違い 1: Fable がデフォルトになっている。
Claude Code を開くと、自動的に Fable が使用されます。
セッションの前に必ずモデルセレクターを確認してください。
この 1 つの習慣で、通常のチャットで誤って Fable を実行していることに気付く回数が、認めたくないほどありました。
間違い 2: 支出上限がない。
7 月 7 日、Fable は標準サブスクリプションから移行します。
クレジットカードを追加し、すぐにハードな月間上限を設定してください。
設定 → 使用量 → 制限の調整。
Fable は自律実行と長時間セッションでトークンを急速に消費します。
ハードな上限がないと、一晩のエージェント実行で、目が覚める前に請求書が発生する可能性があります。
すでに、1 回のプロンプトで $960 の請求を受けた人がいます。
今夜中に上限を設定してください。
間違い 3: 推論の説明を求める。
その 1 つのリクエストで分類子がトリップされ、あなたの作業は気付かないうちに弱いモデルに静かに処理され、自分はまだ Fable を使っていると思い込むことになります。
「なぜ」というリクエストはスキップしてください。出力の品質を判断し、プロセスは判断しないでください。
間違い 4: 小さなプロンプトを少しずつ与える。
Fable は数時間分のコンテキストを頭の中に保持できます。
全体の乱雑なものを一度に与えてください。
完全なコンテキスト。制約。あなたが実際に恐れていること。
私は Fable に、何週間も先延ばしにしていたリファクタリングを、たった 1 つの簡単な指示で与えました。完了して返ってきました。
少しずつ与えることは、Fable が最も得意とする 1 つのことを無駄にします。

モデルコスト比較 — 実際に支払っている金額を知る
何かをルーティングする前に、各モデルの価格を把握してください。
モデル 入力 ($/M) 出力 ($/M) 最適な用途
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
Fable 5 ~$15 ~$75 計画、レビュー
Opus 4.8 ~$5 ~$25 深い推論
Sonnet 5 ~$3 ~$15 標準的な実行
Kimi K2.7 ~$0.95 ~$4.00 一括コーディング、長いコンテキスト
GLM-5.2 ~$1.40 ~$4.40 リポジトリ規模の作業
DeepSeek v4 ~$0.28 ~$1.10 非常に安い雑用
Haiku 4.5 ~$1 ~$5 クリーンアップ、フォーマット
Local (Qwen/Llama) $0 $0 オートコンプリート、ボイラープレート
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
Fable と DeepSeek の差: 入力で 53 倍。出力で 68 倍。
同じ 30 ステップのリファクタリングエージェント: → すべて Fable: 実行あたり ~$25 → Fable 計画 + Kimi 実行: 実行あたり ~$1.40 → 同じリリースコード。同じテスト合格。
ルーティングは安くすることではありません。
正確であることです。

完全なシステム — 実行時の様子
このシステムの前:
→ すべてが Fable にルーティングされる
→ リリースのたびに請求額が急増する
→ 使用制限にセッション中に達する
→ 予算重視の旅行者のようにプロンプトを節約する
このシステムの後:
→ Fable は実際にそれを必要とする 10% を処理する
→ 安価なモデルが実行の 80% を処理する
→ /loop は制限に触れることなく一晩中実行される
→ より多くリリースし、より少なく支出し、レート制限に達することはない
3 行で要約:
Fable が計画する。他のモデルが実行する。Fable がレビューする。
この 1 つのルールだけで、他の何も変えなくても、請求額が 50% 以上削減されます。
残りは最適化です。
今夜これを実行
これを今すぐ Fable にドロップしてください。
現在の CLAUDE.md とすべてのアクティブなプロジェクトを読んでください。
あなたの仕事: 私のワークフローに 10-80-10 ルーティングシステムをセットアップすること。
以下を作成してください:
- 完全なモデルルーティングテーブルを含む更新された CLAUDE.md
- 現在のアクティブなタスクのリスト。各タスクをどのモデルが処理すべきかでランク付け
- 私のプロジェクトであなたが見たものに基づいて、今夜安価なモデルで実行できる 3 つの /goal プロンプト
何も実行しないでください。計画とルーティングだけを行ってください。
Fable が計画を行います。
あなたは完全なルーティングシステムを持って目覚めます。
そして、心臓発作を起こさせない請求書も。
これでお金が節約できたなら:
→ 他のビルダーが予算を浪費するのを防ぐために、リポストしてください
→ このようなシステムについてもっと知りたい方は、@sairahul1 をフォローしてください
→ ブックマークしてください — CLAUDE.md の設定は機能します。今夜貼り付けてください。
このような興味深い記事をもっと読むには、theaibuilders.co を購読してください
私は AI、製品構築、そしてあなたが寝ている間に機能するシステムについて書いています。
リソース:
→ Entelligence トークンルーター: entelligence.ai/blogs/entelligence-token-router
→ 請求額を 80% 削減した 3 モデルワークフロー: entelligence.ai/blogs/our-three-model-coding-workflow-that-cut-our-ai-bill-80
→ Claude Code: claude.ai/code
→ Codex CLI: npmjs.com/package/@openai/codex





