Otimização de custos do Claude Fable 5: O guia de roteamento 10-80-10

O Fable 5 é o melhor modelo de IA que já usei.

Também é incrivelmente caro.

Nas minhas primeiras horas testando, quase consumi todo o meu limite de uso.

E eu nem estava fazendo nada demais.

O Fable custa o dobro do Opus 4.8.

E por ser tão inteligente, ele acaba pensando demais — executando loops e queimando tokens de uma forma que nenhum modelo Claude anterior fez.

A maioria das pessoas está usando ele completamente errado.

Aqui está o sistema exato que criei para reduzir meus custos com tokens do Fable em mais de 50%.

Sem novas ferramentas. Sem menos resultados. Apenas um roteamento mais inteligente.

O erro que todo mundo comete no primeiro dia

Você abre o Claude Code.

O Fable agora é o modelo padrão.

Você começa a conversar.

Você pede para corrigir um erro de digitação. Você pede para formatar um JSON. Você pede para renomear uma variável.

O Fable pensa por 12 segundos, queima 8.000 tokens de raciocínio e retorna a resposta.

Custo: $0,60 por uma tarefa que o Haiku teria resolvido por $0,02.

Você está pagando preço de cirurgião para conversa fiada.

O Fable é um arquiteto.

Não um colega de quarto.

No momento em que você internaliza isso, tudo muda.

O Sistema 10-80-10 (O framework exato que os engenheiros da Anthropic usam internamente)

Todo projeto no Fable tem três fases.

A maioria das pessoas executa todas as três no Fable.

A jogada inteligente é executar apenas duas delas no Fable.

Os primeiros 10% — Planejamento

É aqui que o Fable justifica seu preço.

Antes de qualquer projeto começar, use o Fable para definir:

→ A estrutura e a abordagem → Critérios de sucesso → Restrições e casos extremos → O que pode dar errado

Pense em construir uma casa.

O erro mais caro é dar uma planta baixa ruim para os construtores.

Acertar a arquitetura primeiro.

O Fable é extraordinário nisso.

Os 80% do meio — Execução

É aqui que a maioria dos tokens é queimada.

A ida e volta. A iteração. Os loops de implementação. O trabalho braçal de realmente concluir as tarefas.

O Fable não precisa estar aqui.

Mude para o Opus 4.8 para trabalhos padrão. Use o Haiku para tarefas leves. Use o Codex ou GPT-5.5 para execução mecânica.

Você obtém qualidade de arquitetura do Fable sem pagar preços do Fable por cada token de execução.

Os 10% finais — Revisão

Traga o Fable de volta.

Peça para ele revisar a saída em relação ao plano original:

→ O resultado corresponde à arquitetura?

→ Existem lacunas ou casos extremos perdidos?

→ Algo precisa ser corrigido antes do lançamento?

Como o Fable revisa um resultado finalizado em vez de gerar do zero, ele usa uma fração dos tokens que teria queimado fazendo a tarefa inteira.

[INSERT IMAGE 2 — PROMPT BELOW]

A Tabela de Roteamento no CLAUDE.md (Um arquivo que controla tudo)

Este é o maior ganho.

Mantenha uma única tabela de roteamento no seu CLAUDE.md.

Deixe o Fable atuar como o orquestrador que a lê e despacha o trabalho para o modelo certo automaticamente.

Aqui está a tabela de roteamento exata que uso:

markdown

1## Tabela de Roteamento de Modelos
2
3### Fable 5 (apenas orquestrador)
4Use para: planejamento, arquitetura, revisão de resultado final
5Nunca use para: tarefas mecânicas, geração em massa, boilerplate
6Nível de esforço: alto (nunca xhigh — é um forno com resultados piores)
7
8### Opus 4.8 (executor de raciocínio profundo)
9Use para: depuração complexa, raciocínio de múltiplas etapas, qualquer
10         coisa que precise de pensamento real, mas não seja arquitetura
11Nível de custo: padrão
12
13### Sonnet 5 (executor de trabalho mecânico)
14Use para: geração de código, refatoração, trabalho de funcionalidades padrão
15Nível de custo: barato
16
17### Codex / GPT-5.5 (executor par)
18Use para: tarefas de implementação, verificação de UI/UX,
19         trabalho de execução bem especificado
20Nota: O Fable pode aprender a direcionar o Codex — ensine uma vez
21Nível de custo: frequentemente gratuito no plano Codex
22
23### Haiku (executor em massa)
24Use para: formatação, lint, edições simples, boilerplate,
25         refatorações de renomeação, scaffolding de testes
26Nunca crie subagentes adicionais a partir do Haiku
27Nível de custo: mais barato
28
29### Kimi / GLM-5.2 (executor de contexto longo)
30Use para: ler arquivos enormes, análise de repositório de longo prazo
31         para que o Fable nunca gaste tokens com isso
32Nível de custo: muito barato
33
34### DeepSeek / Qwen (trabalho braçal extremamente barato)
35Use para: boilerplate, escrita de testes, limpeza de dados,
36         traduções, rascunhos de documentação, geração em massa
37Nível de custo: quase gratuito

O Fable nunca toca no trabalho barato diretamente.

Ele planeja, delega para o nível certo e depois verifica os resultados em relação ao plano.

O cérebro caro só gasta tokens para decidir.

Esse único arquivo é o motivo pelo qual minha conta DIMINUIU enquanto minha produção AUMENTOU.

A configuração exata do CLAUDE.md que economizou 70% dos meus tokens

Aqui está a seção de orquestração completa que coloquei no meu CLAUDE.md:

markdown

1## Fluxo de Trabalho de Orquestração
2
3Você (Fable) é o orquestrador. Planeje, decomponha, sintetize.
4NÃO execute tarefas mecânicas você mesmo.
5
6### Regras de delegação:
7- Fases com raciocínio intenso → raciocinador-profundo (Opus 4.8)
8- Trabalho mecânico → trabalhador-rápido (Sonnet/Haiku)
9- Análise de código / arquivos enormes → Kimi (contexto longo)
10- Boilerplate / volume → DeepSeek ou Qwen
11- Revisão por pares de uma perspectiva diferente → Codex
12
13### Codex é um par, não um revisor:
14Trate o Codex como um engenheiro sênior diferenciado de uma
15perspectiva diferente. Para decisões de alto risco: atribua Opus + Codex
16no mesmo problema em paralelo, sintetize o melhor de
17ambos sem mostrar a resposta de um para o outro.
18
19### Disciplina de contexto:
20Mantenha seu próprio contexto enxuto.
21Nunca releia arquivos que você já processou.
22Resuma as saídas das ferramentas antes de realimentar o contexto.
23Peça aos modelos que retornem conclusões concisas nas quais você possa agir.
24
25### Níveis de esforço:
26- Planejamento e arquitetura: esforço alto
27- Passagens de revisão: esforço médio
28- Nunca use xhigh/max por padrão — custa mais, geralmente é pior

Agora, dê um prompt ao Fable como um líder técnico:

markdown

1Objetivo: [o que você quer]
2Contexto: [arquivos, restrições, do que você tem medo]
3
4Você é o líder.
5Delegue o raciocínio ao raciocinador-profundo (Opus).
6Delegue o trabalho braçal ao trabalhador-rápido (Sonnet/Haiku).
7Use o Codex para problemas com novas perspectivas.
8
9Mostre-me seu plano primeiro, depois execute.

É isso.

O Fable planeja. Todo o resto executa. A conta permanece estável.

Instalando o plugin Codex — o movimento multiplicador

Esta é a configuração que a maioria das pessoas pula.

Codex + Fable juntos é 10x melhor do que Fable sozinho.

O Fable faz a arquitetura. O Codex executa com qualidade GPT-5.5. Você mal toca nos seus limites do Claude.

Configuração em menos de 5 minutos:

Passo 1: Instale o Codex CLI na sua máquina

bash

1npm install -g @openai/codex

Passo 2: Adicione o plugin dentro do Claude Code

text

1/plugin marketplace add openai/codex-plugin-cc
2/plugin install codex@openai-codex
3/codex:setup

Passo 3: Crie dois subagentes no Claude Code

text

1/agents
2
3→ raciocinador-profundo
4  Modelo: Opus 4.8
5  Instruções: "Use para fases com raciocínio intenso, arquitetura,
6  depuração de problemas complexos. Pense minuciosamente, retorne uma
7  conclusão concisa na qual o orquestrador possa agir."
8
9→ trabalhador-rápido
10  Modelo: Sonnet 5
11  Instruções: "Use para tarefas mecânicas, boilerplate, testes,
12  formatação, edições simples. Execute com eficiência."

Passo 4: Peça ao Fable para escrever um SKILL.md para o Codex

text

1Escreva um SKILL.md que ensine ao Codex exatamente como:
2- Ler e executar planos de implementação
3- Executar testes e relatar os resultados de volta para você
4- Lidar com a estrutura de arquivos específica neste projeto

Faça com que o Codex não precise de nenhum suporte para trabalho mecânico.

O Fable escreve a habilidade uma vez.

O Codex a lê em toda execução futura.

Sua saída do Codex melhora imediatamente em 10x.

O comando /loop (A maneira mais poderosa de usar o Fable agora)

A maioria das pessoas ainda usa prompts da maneira antiga.

Você dá o prompt → O Fable responde → você revisa → você dá outro prompt → repete.

Nesse modelo, você é o loop.

Você verifica manualmente cada etapa, cada correção, cada acompanhamento.

Os loops removem você como o gargalo.

Como funciona:

Você dá um objetivo ao Fable antecipadamente.

Ele cria subagentes para trabalhar em direção a esse objetivo.

Os agentes dão prompts a si mesmos e relatam quando terminam.

Os dois comandos:

text

1/goal — define a tarefa e o estado final
2
3Estrutura:
4/goal [tarefa] até [estado final mensurável] sem [restrições]
5
6Exemplo:
7/goal refatorar o módulo de autenticação até que todos os 47 testes passem
8sem tocar no serviço de pagamento ou no esquema do banco de dados

text

1/loop — executa um prompt em um agendamento automaticamente
2
3Estrutura:
4/loop [seu prompt] --intervalo 30m --expira 8h
5
6Exemplo:
7/loop executar verificação de segurança em todos os endpoints da API
8--intervalo 24h --expira 7d

A combinação:

text

1/goal reconstruir o componente do dashboard até que a pontuação
2do Lighthouse exceda 90 no mobile sem quebrar os testes existentes
3
4/loop executar /goal acima --intervalo 6h --expira 48h

O Fable projeta o loop. Modelos mais baratos executam os 80% de execução dentro do loop. O Fable só volta quando o loop fecha ou encontra um bloqueio.

Você acorda com uma tarefa concluída.

[INSERT IMAGE 5 — PROMPT BELOW]

7 prompts para executar no Fable agora

Estas são as coisas de maior alavancagem para fazer com o Fable antes de usá-lo para qualquer outra coisa.

Não é "vibe coding".

Não é lançar funcionalidades.

É aprimorar todos os sistemas que você já possui.

1. Descubra o que realmente vale a pena executar no Fable

text

1Você é o Fable 5, o modelo mais capaz disponível.
2
3Analise meus projetos, documentos e memória.
4
5Liste as 5 principais tarefas que realmente valem a pena serem executadas em você.
6
7Classifique-as com uma razão de uma linha cada.
8
9Ainda não faça o trabalho.

2. Redesenhe como você constrói antes de construir qualquer coisa

text

1Quero que você audite e redesenhe completamente meu fluxo de trabalho de codificação.
2
3Aqui está como eu trabalho atualmente: [descreva seu processo]
4
5Meu objetivo é: [o que você está tentando entregar]
6
7Revise, audite, aprimore e melhore meu sistema.
8
9Não escreva código. Redesenhe a fábrica antes de operá-la.

3. Planeje o grande projeto — não o construa ainda

text

1Quero planejar: [descreva o projeto]
2
3Ainda não construa.
4
5Apresente o plano completo: fases, decisões principais, riscos
6e perguntas em aberto.
7
8Sinalize qualquer coisa que possa afundá-lo.
9
10Torne o plano claro o suficiente para que o Sonnet ou o Codex possam
11executá-lo passo a passo sem me fazer perguntas.

4. Encontre tudo o que está errado antes de lançar

text

1Estou prestes a lançar este projeto.
2
3Encontre tudo o que está errado primeiro.
4
5Leia a base de código inteira.
6
7Procure por bugs reais, casos extremos quebrados e qualquer coisa que
8vá quebrar na frente de um usuário.
9
10Liste cada problema com: como reproduzi-lo e a correção.
11
12Mantenha um padrão alto. Seja implacável.

5. Reconstrua seu CLAUDE.md do zero

text

1Leia meu CLAUDE.md atual.
2
3Ele foi escrito para modelos mais antigos e está inchado.
4
5Instruções mais curtas e limpas têm melhor desempenho e custam menos
6no Fable.
7
8Reescreva-o:
9- Remova instruções que o Fable não precisa mais
10- Aperte cada fluxo de trabalho
11- Adicione a tabela de roteamento de modelos da nossa conversa
12- Mantenha cada seção com menos de 5 linhas quando possível
13
14O Fable descobrirá o resto sozinho.

6. Obtenha conselhos de negócios de tudo o que ele sabe sobre você

text

1Você é meu consultor de negócios.
2
3Leia meu documento de plano, ferramentas conectadas e memória.
4
5Escreva uma avaliação de uma página do meu negócio e:
6- As 3 principais coisas em que focar nos próximos 3 meses
7- O que abandonar e por quê
8- Uma coisa que provavelmente estou ignorando

7. Varredura de segurança no piloto automático

text

1/loop executar uma verificação de segurança em todos os meus endpoints da API.
2
3Procure por: chaves expostas, falta de autenticação, lacunas de limite de taxa,
4vetores de injeção e qualquer coisa que um usuário malicioso possa explorar.
5
6Relate apenas problemas reais com classificações de gravidade.
7
8--intervalo 24h --expira 7d

Níveis de esforço — a configuração mais mal compreendida

A maioria das pessoas usa o padrão max ou xhigh.

Isso está errado.

Aqui está o que realmente acontece em cada nível:

→ Baixo: Rápido, barato, surpreendentemente capaz para tarefas simples. Muitas pessoas relatam resultados incríveis aqui.

→ Médio: O ponto ideal. Fable no médio supera o Opus no extra alto. Use este como padrão.

→ Alto: Use para: depuração difícil, refatorações de vários arquivos, decisões de arquitetura. Poder de raciocínio real.

→ xhigh / max: Forno de tokens. Frequentemente produz resultados PIORES do que o Alto. Reserve para os problemas genuinamente mais difíceis que você já enfrentou.

A regra: comece com Médio. Mude para Alto apenas se a qualidade estiver realmente aquém. Nunca use max como padrão.

Mais uma configuração que destrói orçamentos:

Pensamento Estendido — deixe-o desligado por padrão.

Ligue-o apenas para problemas que realmente exijam isso. Deixá-lo ligado permanentemente é como deixar o motor do seu carro ligado na garagem.

O truque /handoff — corrija o inchaço da janela de contexto

Sessões longas são um assassino silencioso.

A cada turno, todo o histórico da conversa é reenviado.

Uma sessão de 200 mil tokens se torna a coisa mais cara da sua conta.

A solução: abra novos chats com frequência.

Mas você não quer perder o contexto quando fizer isso.

Use a habilidade /handoff:

text

1Me dê um prompt que eu possa usar para reiniciar esta sessão em
2um novo chat sem perder nenhum do nosso contexto.
3
4Inclua:
5- O que decidimos
6- O que construímos
7- Quais são os próximos passos
8- Quaisquer restrições importantes que eu deva lembrar
9
10Faça com menos de 500 tokens para que a nova sessão comece enxuta.

Copie essa saída.

Abra um novo chat.

Cole-a.

Continue exatamente de onde parou com uma fração do custo de contexto.

Sessão nova a cada 30–60 minutos = economia massiva de tokens.

Os 4 erros caros para evitar

Erro 1: Fable é agora o padrão.

Quando você abre o Claude Code, ele usa automaticamente o Fable.

Verifique o seletor de modelo antes de cada sessão.

Este único hábito me pegou executando acidentalmente o Fable em conversas normais mais vezes do que gostaria de admitir.

Erro 2: Sem limite de gastos.

Em 7 de julho, o Fable sai das assinaturas padrão.

Adicione um cartão de crédito e defina um limite mensal rígido imediatamente.

Configurações → Uso → Ajustar Limite.

O Fable queima tokens rapidamente em execuções autônomas e sessões longas.

Sem um limite rígido, uma única execução de agente durante a noite pode acumular uma conta antes de você acordar.

Alguém já foi cobrado $960 em um único prompt.

Defina o limite hoje à noite.

Erro 3: Pedir para ele explicar seu raciocínio.

Esse único pedido pode acionar classificadores e seu trabalho é silenciosamente tratado por um modelo mais fraco enquanto você pensa que ainda está no Fable.

Pule os pedidos de "por quê". Julgue a qualidade da saída, não o processo.

Erro 4: Alimentá-lo com prompts minúsculos.

O Fable mantém horas de contexto em sua cabeça.

Dê a coisa toda e bagunçada de uma vez.

Contexto completo. As restrições. Do que você realmente tem medo.

Eu dei ao Fable uma refatoração que estava adiando há semanas em um único resumo. Ele voltou pronto.

Alimentá-lo aos poucos desperdiça a única coisa em que ele é melhor.

A comparação de custos dos modelos — saiba o que você está realmente pagando

Antes de rotear qualquer coisa, saiba o preço de cada modelo:

Modelo Entrada ($/M) Saída ($/M) Melhor para

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Fable 5 ~$15 ~$75 Planejamento, revisão

Opus 4.8 ~$5 ~$25 Raciocínio profundo

Sonnet 5 ~$3 ~$15 Execução padrão

Kimi K2.7 ~$0,95 ~$4,00 Codificação em massa, contexto longo

GLM-5.2 ~$1,40 ~$4,40 Trabalho em escala de repositório

DeepSeek v4 ~$0,28 ~$1,10 Trabalho braçal extremamente barato

Haiku 4.5 ~$1 ~$5 Limpeza, formatação

Local (Qwen/Llama) $0 $0 Autocomplete, boilerplate

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

A diferença entre Fable e DeepSeek: 53x na entrada. 68x na saída.

O mesmo agente de refatoração de 30 etapas: → Tudo no Fable: ~$25 por execução → Plano Fable + execução Kimi: ~$1,40 por execução → Mesmo código entregue. Mesmos testes passando.

Roteamento não é sobre ser barato.

É sobre ser preciso.

O sistema completo — como é quando está funcionando

Antes deste sistema:

→ Tudo roteia para o Fable

→ A conta dispara toda vez que você entrega algo

→ Os limites de uso são atingidos no meio da sessão

→ Você raciona prompts como um viajante com orçamento apertado

Depois deste sistema:

→ O Fable lida com os 10% que realmente precisam dele

→ Modelos baratos lidam com os 80% da execução

→ /loop é executado durante a noite sem tocar no seu limite

→ Você entrega mais, gasta menos, nunca atinge um limite de taxa

O resumo em três linhas:

Fable planeja. Outros executam. Fable revisa.

Essa única regra reduz sua conta em mais de 50% antes que você mude qualquer outra coisa.

O resto é otimização.

Execute isso hoje à noite

Cole isso no Fable agora:

Leia meu CLAUDE.md atual e todos os meus projetos ativos.

Seu trabalho: configurar o sistema de roteamento 10-80-10 para meu fluxo de trabalho.

Crie:

CLAUDE.md atualizado com a tabela de roteamento de modelos completa
Uma lista das minhas tarefas ativas atuais classificadas por qual modelo deve lidar com cada uma
Três prompts /goal que posso executar hoje à noite em modelos mais baratos com base no que você vê nos meus projetos

Não execute nada. Apenas planeje e roteie.

O Fable faz o planejamento.

Você acorda com um sistema de roteamento completo.

E uma conta que não te dá um ataque cardíaco.

Se isso economizou seu dinheiro:

→ Reposte para que outros construtores parem de queimar seus orçamentos

→ Siga @sairahul1 para mais sistemas como este

→ Salve isto — as configurações do CLAUDE.md funcionam, cole-as hoje à noite

Inscreva-se em theaibuilders.co para mais artigos interessantes como este

Eu escrevo sobre IA, construção de produtos e sistemas que funcionam enquanto você dorme.

Recursos:

→ Roteador de tokens Entelligence: entelligence.ai/blogs/entelligence-token-router

→ Fluxo de trabalho de três modelos que reduziu contas em 80%: entelligence.ai/blogs/our-three-model-coding-workflow-that-cut-our-ai-bill-80

→ Claude Code: claude.ai/code

→ Codex CLI: npmjs.com/package/@openai/codex

Como usar o Claude Fable 5 sem ir à falência

O Sistema 10-80-10 (O framework exato que os engenheiros da Anthropic usam internamente)

A Tabela de Roteamento no CLAUDE.md (Um arquivo que controla tudo)

A configuração exata do CLAUDE.md que economizou 70% dos meus tokens

Instalando o plugin Codex — o movimento multiplicador

O comando /loop (A maneira mais poderosa de usar o Fable agora)

7 prompts para executar no Fable agora

Níveis de esforço — a configuração mais mal compreendida

O truque /handoff — corrija o inchaço da janela de contexto

Os 4 erros caros para evitar

A comparação de custos dos modelos — saiba o que você está realmente pagando

O sistema completo — como é quando está funcionando

Execute isso hoje à noite

Se isso economizou seu dinheiro:

Recursos:

Turn one viral article into a full content workflow

Artigos virais recentes

Dizer "pode me consultar a qualquer hora" não é mentoria de verdade: um guia para um acompanhamento profissional real

Private Equity subestima a IA

Como construir um Segundo Cérebro com o Fable 5

Como ganhar dinheiro com o Claude Fable 5 (Guia Completo)

Verdadeiramente Cruel: Um ex-insider expõe o lado sombrio do setor de seguros

O Guia Definitivo para o Melhor Modelo de IA: Claude Fable 5 Explicado de Forma Simples

Como usar o Claude Fable 5 sem ir à falência

O Sistema 10-80-10 (O framework exato que os engenheiros da Anthropic usam internamente)

A Tabela de Roteamento no CLAUDE.md (Um arquivo que controla tudo)

A configuração exata do CLAUDE.md que economizou 70% dos meus tokens

Instalando o plugin Codex — o movimento multiplicador

O comando /loop (A maneira mais poderosa de usar o Fable agora)

7 prompts para executar no Fable agora

Níveis de esforço — a configuração mais mal compreendida

O truque /handoff — corrija o inchaço da janela de contexto

Os 4 erros caros para evitar

A comparação de custos dos modelos — saiba o que você está realmente pagando

O sistema completo — como é quando está funcionando

Execute isso hoje à noite

Se isso economizou seu dinheiro:

Recursos:

Turn one viral article into a full content workflow

Transforme seu Markdown em um artigo 𝕏 impecável

Artigos virais recentes

Dizer "pode me consultar a qualquer hora" não é mentoria de verdade: um guia para um acompanhamento profissional real

Private Equity subestima a IA

Como construir um Segundo Cérebro com o Fable 5

Como ganhar dinheiro com o Claude Fable 5 (Guia Completo)

Verdadeiramente Cruel: Um ex-insider expõe o lado sombrio do setor de seguros

O Guia Definitivo para o Melhor Modelo de IA: Claude Fable 5 Explicado de Forma Simples