O Fable 5 é o melhor modelo de IA que já usei.
Também é incrivelmente caro.
Nas minhas primeiras horas testando, quase consumi todo o meu limite de uso.
E eu nem estava fazendo nada demais.
O Fable custa o dobro do Opus 4.8.
E por ser tão inteligente, ele acaba pensando demais — executando loops e queimando tokens de uma forma que nenhum modelo Claude anterior fez.
A maioria das pessoas está usando ele completamente errado.
Aqui está o sistema exato que criei para reduzir meus custos com tokens do Fable em mais de 50%.
Sem novas ferramentas. Sem menos resultados. Apenas um roteamento mais inteligente.
O erro que todo mundo comete no primeiro dia
Você abre o Claude Code.
O Fable agora é o modelo padrão.
Você começa a conversar.
Você pede para corrigir um erro de digitação. Você pede para formatar um JSON. Você pede para renomear uma variável.
O Fable pensa por 12 segundos, queima 8.000 tokens de raciocínio e retorna a resposta.
Custo: $0,60 por uma tarefa que o Haiku teria resolvido por $0,02.
Você está pagando preço de cirurgião para conversa fiada.
O Fable é um arquiteto.
Não um colega de quarto.
No momento em que você internaliza isso, tudo muda.

O Sistema 10-80-10 (O framework exato que os engenheiros da Anthropic usam internamente)
Todo projeto no Fable tem três fases.
A maioria das pessoas executa todas as três no Fable.
A jogada inteligente é executar apenas duas delas no Fable.
Os primeiros 10% — Planejamento
É aqui que o Fable justifica seu preço.
Antes de qualquer projeto começar, use o Fable para definir:
→ A estrutura e a abordagem → Critérios de sucesso → Restrições e casos extremos → O que pode dar errado
Pense em construir uma casa.
O erro mais caro é dar uma planta baixa ruim para os construtores.
Acertar a arquitetura primeiro.
O Fable é extraordinário nisso.
Os 80% do meio — Execução
É aqui que a maioria dos tokens é queimada.
A ida e volta. A iteração. Os loops de implementação. O trabalho braçal de realmente concluir as tarefas.
O Fable não precisa estar aqui.
Mude para o Opus 4.8 para trabalhos padrão. Use o Haiku para tarefas leves. Use o Codex ou GPT-5.5 para execução mecânica.
Você obtém qualidade de arquitetura do Fable sem pagar preços do Fable por cada token de execução.
Os 10% finais — Revisão
Traga o Fable de volta.
Peça para ele revisar a saída em relação ao plano original:
→ O resultado corresponde à arquitetura?
→ Existem lacunas ou casos extremos perdidos?
→ Algo precisa ser corrigido antes do lançamento?
Como o Fable revisa um resultado finalizado em vez de gerar do zero, ele usa uma fração dos tokens que teria queimado fazendo a tarefa inteira.
[INSERT IMAGE 2 — PROMPT BELOW]

A Tabela de Roteamento no CLAUDE.md (Um arquivo que controla tudo)
Este é o maior ganho.
Mantenha uma única tabela de roteamento no seu CLAUDE.md.
Deixe o Fable atuar como o orquestrador que a lê e despacha o trabalho para o modelo certo automaticamente.
Aqui está a tabela de roteamento exata que uso:
1## Tabela de Roteamento de Modelos23### Fable 5 (apenas orquestrador)4Use para: planejamento, arquitetura, revisão de resultado final5Nunca use para: tarefas mecânicas, geração em massa, boilerplate6Nível de esforço: alto (nunca xhigh — é um forno com resultados piores)78### Opus 4.8 (executor de raciocínio profundo)9Use para: depuração complexa, raciocínio de múltiplas etapas, qualquer10 coisa que precise de pensamento real, mas não seja arquitetura11Nível de custo: padrão1213### Sonnet 5 (executor de trabalho mecânico)14Use para: geração de código, refatoração, trabalho de funcionalidades padrão15Nível de custo: barato1617### Codex / GPT-5.5 (executor par)18Use para: tarefas de implementação, verificação de UI/UX,19 trabalho de execução bem especificado20Nota: O Fable pode aprender a direcionar o Codex — ensine uma vez21Nível de custo: frequentemente gratuito no plano Codex2223### Haiku (executor em massa)24Use para: formatação, lint, edições simples, boilerplate,25 refatorações de renomeação, scaffolding de testes26Nunca crie subagentes adicionais a partir do Haiku27Nível de custo: mais barato2829### Kimi / GLM-5.2 (executor de contexto longo)30Use para: ler arquivos enormes, análise de repositório de longo prazo31 para que o Fable nunca gaste tokens com isso32Nível de custo: muito barato3334### DeepSeek / Qwen (trabalho braçal extremamente barato)35Use para: boilerplate, escrita de testes, limpeza de dados,36 traduções, rascunhos de documentação, geração em massa37Nível de custo: quase gratuito
O Fable nunca toca no trabalho barato diretamente.
Ele planeja, delega para o nível certo e depois verifica os resultados em relação ao plano.
O cérebro caro só gasta tokens para decidir.
Esse único arquivo é o motivo pelo qual minha conta DIMINUIU enquanto minha produção AUMENTOU.

A configuração exata do CLAUDE.md que economizou 70% dos meus tokens
Aqui está a seção de orquestração completa que coloquei no meu CLAUDE.md:
1## Fluxo de Trabalho de Orquestração23Você (Fable) é o orquestrador. Planeje, decomponha, sintetize.4NÃO execute tarefas mecânicas você mesmo.56### Regras de delegação:7- Fases com raciocínio intenso → raciocinador-profundo (Opus 4.8)8- Trabalho mecânico → trabalhador-rápido (Sonnet/Haiku)9- Análise de código / arquivos enormes → Kimi (contexto longo)10- Boilerplate / volume → DeepSeek ou Qwen11- Revisão por pares de uma perspectiva diferente → Codex1213### Codex é um par, não um revisor:14Trate o Codex como um engenheiro sênior diferenciado de uma15perspectiva diferente. Para decisões de alto risco: atribua Opus + Codex16no mesmo problema em paralelo, sintetize o melhor de17ambos sem mostrar a resposta de um para o outro.1819### Disciplina de contexto:20Mantenha seu próprio contexto enxuto.21Nunca releia arquivos que você já processou.22Resuma as saídas das ferramentas antes de realimentar o contexto.23Peça aos modelos que retornem conclusões concisas nas quais você possa agir.2425### Níveis de esforço:26- Planejamento e arquitetura: esforço alto27- Passagens de revisão: esforço médio28- Nunca use xhigh/max por padrão — custa mais, geralmente é pior
Agora, dê um prompt ao Fable como um líder técnico:
1Objetivo: [o que você quer]2Contexto: [arquivos, restrições, do que você tem medo]34Você é o líder.5Delegue o raciocínio ao raciocinador-profundo (Opus).6Delegue o trabalho braçal ao trabalhador-rápido (Sonnet/Haiku).7Use o Codex para problemas com novas perspectivas.89Mostre-me seu plano primeiro, depois execute.
É isso.
O Fable planeja. Todo o resto executa. A conta permanece estável.
Instalando o plugin Codex — o movimento multiplicador
Esta é a configuração que a maioria das pessoas pula.
Codex + Fable juntos é 10x melhor do que Fable sozinho.
O Fable faz a arquitetura. O Codex executa com qualidade GPT-5.5. Você mal toca nos seus limites do Claude.
Configuração em menos de 5 minutos:
Passo 1: Instale o Codex CLI na sua máquina
1npm install -g @openai/codex
Passo 2: Adicione o plugin dentro do Claude Code
1/plugin marketplace add openai/codex-plugin-cc2/plugin install codex@openai-codex3/codex:setup
Passo 3: Crie dois subagentes no Claude Code
1/agents23→ raciocinador-profundo4 Modelo: Opus 4.85 Instruções: "Use para fases com raciocínio intenso, arquitetura,6 depuração de problemas complexos. Pense minuciosamente, retorne uma7 conclusão concisa na qual o orquestrador possa agir."89→ trabalhador-rápido10 Modelo: Sonnet 511 Instruções: "Use para tarefas mecânicas, boilerplate, testes,12 formatação, edições simples. Execute com eficiência."
Passo 4: Peça ao Fable para escrever um SKILL.md para o Codex
1Escreva um SKILL.md que ensine ao Codex exatamente como:2- Ler e executar planos de implementação3- Executar testes e relatar os resultados de volta para você4- Lidar com a estrutura de arquivos específica neste projeto
Faça com que o Codex não precise de nenhum suporte para trabalho mecânico.
O Fable escreve a habilidade uma vez.
O Codex a lê em toda execução futura.
Sua saída do Codex melhora imediatamente em 10x.

O comando /loop (A maneira mais poderosa de usar o Fable agora)
A maioria das pessoas ainda usa prompts da maneira antiga.
Você dá o prompt → O Fable responde → você revisa → você dá outro prompt → repete.
Nesse modelo, você é o loop.
Você verifica manualmente cada etapa, cada correção, cada acompanhamento.
Os loops removem você como o gargalo.
Como funciona:
Você dá um objetivo ao Fable antecipadamente.
Ele cria subagentes para trabalhar em direção a esse objetivo.
Os agentes dão prompts a si mesmos e relatam quando terminam.
Os dois comandos:
1/goal — define a tarefa e o estado final23Estrutura:4/goal [tarefa] até [estado final mensurável] sem [restrições]56Exemplo:7/goal refatorar o módulo de autenticação até que todos os 47 testes passem8sem tocar no serviço de pagamento ou no esquema do banco de dados
1/loop — executa um prompt em um agendamento automaticamente23Estrutura:4/loop [seu prompt] --intervalo 30m --expira 8h56Exemplo:7/loop executar verificação de segurança em todos os endpoints da API8--intervalo 24h --expira 7d
A combinação:
1/goal reconstruir o componente do dashboard até que a pontuação2do Lighthouse exceda 90 no mobile sem quebrar os testes existentes34/loop executar /goal acima --intervalo 6h --expira 48h
O Fable projeta o loop. Modelos mais baratos executam os 80% de execução dentro do loop. O Fable só volta quando o loop fecha ou encontra um bloqueio.
Você acorda com uma tarefa concluída.
[INSERT IMAGE 5 — PROMPT BELOW]
7 prompts para executar no Fable agora
Estas são as coisas de maior alavancagem para fazer com o Fable antes de usá-lo para qualquer outra coisa.
Não é "vibe coding".
Não é lançar funcionalidades.
É aprimorar todos os sistemas que você já possui.
1. Descubra o que realmente vale a pena executar no Fable
1Você é o Fable 5, o modelo mais capaz disponível.23Analise meus projetos, documentos e memória.45Liste as 5 principais tarefas que realmente valem a pena serem executadas em você.67Classifique-as com uma razão de uma linha cada.89Ainda não faça o trabalho.
2. Redesenhe como você constrói antes de construir qualquer coisa
1Quero que você audite e redesenhe completamente meu fluxo de trabalho de codificação.23Aqui está como eu trabalho atualmente: [descreva seu processo]45Meu objetivo é: [o que você está tentando entregar]67Revise, audite, aprimore e melhore meu sistema.89Não escreva código. Redesenhe a fábrica antes de operá-la.
3. Planeje o grande projeto — não o construa ainda
1Quero planejar: [descreva o projeto]23Ainda não construa.45Apresente o plano completo: fases, decisões principais, riscos6e perguntas em aberto.78Sinalize qualquer coisa que possa afundá-lo.910Torne o plano claro o suficiente para que o Sonnet ou o Codex possam11executá-lo passo a passo sem me fazer perguntas.
4. Encontre tudo o que está errado antes de lançar
1Estou prestes a lançar este projeto.23Encontre tudo o que está errado primeiro.45Leia a base de código inteira.67Procure por bugs reais, casos extremos quebrados e qualquer coisa que8vá quebrar na frente de um usuário.910Liste cada problema com: como reproduzi-lo e a correção.1112Mantenha um padrão alto. Seja implacável.
5. Reconstrua seu CLAUDE.md do zero
1Leia meu CLAUDE.md atual.23Ele foi escrito para modelos mais antigos e está inchado.45Instruções mais curtas e limpas têm melhor desempenho e custam menos6no Fable.78Reescreva-o:9- Remova instruções que o Fable não precisa mais10- Aperte cada fluxo de trabalho11- Adicione a tabela de roteamento de modelos da nossa conversa12- Mantenha cada seção com menos de 5 linhas quando possível1314O Fable descobrirá o resto sozinho.
6. Obtenha conselhos de negócios de tudo o que ele sabe sobre você
1Você é meu consultor de negócios.23Leia meu documento de plano, ferramentas conectadas e memória.45Escreva uma avaliação de uma página do meu negócio e:6- As 3 principais coisas em que focar nos próximos 3 meses7- O que abandonar e por quê8- Uma coisa que provavelmente estou ignorando
7. Varredura de segurança no piloto automático
1/loop executar uma verificação de segurança em todos os meus endpoints da API.23Procure por: chaves expostas, falta de autenticação, lacunas de limite de taxa,4vetores de injeção e qualquer coisa que um usuário malicioso possa explorar.56Relate apenas problemas reais com classificações de gravidade.78--intervalo 24h --expira 7d

Níveis de esforço — a configuração mais mal compreendida
A maioria das pessoas usa o padrão max ou xhigh.
Isso está errado.
Aqui está o que realmente acontece em cada nível:
→ Baixo: Rápido, barato, surpreendentemente capaz para tarefas simples. Muitas pessoas relatam resultados incríveis aqui.
→ Médio: O ponto ideal. Fable no médio supera o Opus no extra alto. Use este como padrão.
→ Alto: Use para: depuração difícil, refatorações de vários arquivos, decisões de arquitetura. Poder de raciocínio real.
→ xhigh / max: Forno de tokens. Frequentemente produz resultados PIORES do que o Alto. Reserve para os problemas genuinamente mais difíceis que você já enfrentou.
A regra: comece com Médio. Mude para Alto apenas se a qualidade estiver realmente aquém. Nunca use max como padrão.
Mais uma configuração que destrói orçamentos:
Pensamento Estendido — deixe-o desligado por padrão.
Ligue-o apenas para problemas que realmente exijam isso. Deixá-lo ligado permanentemente é como deixar o motor do seu carro ligado na garagem.
O truque /handoff — corrija o inchaço da janela de contexto
Sessões longas são um assassino silencioso.
A cada turno, todo o histórico da conversa é reenviado.
Uma sessão de 200 mil tokens se torna a coisa mais cara da sua conta.
A solução: abra novos chats com frequência.
Mas você não quer perder o contexto quando fizer isso.
Use a habilidade /handoff:
1Me dê um prompt que eu possa usar para reiniciar esta sessão em2um novo chat sem perder nenhum do nosso contexto.34Inclua:5- O que decidimos6- O que construímos7- Quais são os próximos passos8- Quaisquer restrições importantes que eu deva lembrar910Faça com menos de 500 tokens para que a nova sessão comece enxuta.
Copie essa saída.
Abra um novo chat.
Cole-a.
Continue exatamente de onde parou com uma fração do custo de contexto.
Sessão nova a cada 30–60 minutos = economia massiva de tokens.

Os 4 erros caros para evitar
Erro 1: Fable é agora o padrão.
Quando você abre o Claude Code, ele usa automaticamente o Fable.
Verifique o seletor de modelo antes de cada sessão.
Este único hábito me pegou executando acidentalmente o Fable em conversas normais mais vezes do que gostaria de admitir.
Erro 2: Sem limite de gastos.
Em 7 de julho, o Fable sai das assinaturas padrão.
Adicione um cartão de crédito e defina um limite mensal rígido imediatamente.
Configurações → Uso → Ajustar Limite.
O Fable queima tokens rapidamente em execuções autônomas e sessões longas.
Sem um limite rígido, uma única execução de agente durante a noite pode acumular uma conta antes de você acordar.
Alguém já foi cobrado $960 em um único prompt.
Defina o limite hoje à noite.
Erro 3: Pedir para ele explicar seu raciocínio.
Esse único pedido pode acionar classificadores e seu trabalho é silenciosamente tratado por um modelo mais fraco enquanto você pensa que ainda está no Fable.
Pule os pedidos de "por quê". Julgue a qualidade da saída, não o processo.
Erro 4: Alimentá-lo com prompts minúsculos.
O Fable mantém horas de contexto em sua cabeça.
Dê a coisa toda e bagunçada de uma vez.
Contexto completo. As restrições. Do que você realmente tem medo.
Eu dei ao Fable uma refatoração que estava adiando há semanas em um único resumo. Ele voltou pronto.
Alimentá-lo aos poucos desperdiça a única coisa em que ele é melhor.

A comparação de custos dos modelos — saiba o que você está realmente pagando
Antes de rotear qualquer coisa, saiba o preço de cada modelo:
Modelo Entrada ($/M) Saída ($/M) Melhor para
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
Fable 5 ~$15 ~$75 Planejamento, revisão
Opus 4.8 ~$5 ~$25 Raciocínio profundo
Sonnet 5 ~$3 ~$15 Execução padrão
Kimi K2.7 ~$0,95 ~$4,00 Codificação em massa, contexto longo
GLM-5.2 ~$1,40 ~$4,40 Trabalho em escala de repositório
DeepSeek v4 ~$0,28 ~$1,10 Trabalho braçal extremamente barato
Haiku 4.5 ~$1 ~$5 Limpeza, formatação
Local (Qwen/Llama) $0 $0 Autocomplete, boilerplate
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
A diferença entre Fable e DeepSeek: 53x na entrada. 68x na saída.
O mesmo agente de refatoração de 30 etapas: → Tudo no Fable: ~$25 por execução → Plano Fable + execução Kimi: ~$1,40 por execução → Mesmo código entregue. Mesmos testes passando.
Roteamento não é sobre ser barato.
É sobre ser preciso.

O sistema completo — como é quando está funcionando
Antes deste sistema:
→ Tudo roteia para o Fable
→ A conta dispara toda vez que você entrega algo
→ Os limites de uso são atingidos no meio da sessão
→ Você raciona prompts como um viajante com orçamento apertado
Depois deste sistema:
→ O Fable lida com os 10% que realmente precisam dele
→ Modelos baratos lidam com os 80% da execução
→ /loop é executado durante a noite sem tocar no seu limite
→ Você entrega mais, gasta menos, nunca atinge um limite de taxa
O resumo em três linhas:
Fable planeja. Outros executam. Fable revisa.
Essa única regra reduz sua conta em mais de 50% antes que você mude qualquer outra coisa.
O resto é otimização.
Execute isso hoje à noite
Cole isso no Fable agora:
Leia meu CLAUDE.md atual e todos os meus projetos ativos.
Seu trabalho: configurar o sistema de roteamento 10-80-10 para meu fluxo de trabalho.
Crie:
- CLAUDE.md atualizado com a tabela de roteamento de modelos completa
- Uma lista das minhas tarefas ativas atuais classificadas por qual modelo deve lidar com cada uma
- Três prompts /goal que posso executar hoje à noite em modelos mais baratos com base no que você vê nos meus projetos
Não execute nada. Apenas planeje e roteie.
O Fable faz o planejamento.
Você acorda com um sistema de roteamento completo.
E uma conta que não te dá um ataque cardíaco.
Se isso economizou seu dinheiro:
→ Reposte para que outros construtores parem de queimar seus orçamentos
→ Siga @sairahul1 para mais sistemas como este
→ Salve isto — as configurações do CLAUDE.md funcionam, cole-as hoje à noite
Inscreva-se em theaibuilders.co para mais artigos interessantes como este
Eu escrevo sobre IA, construção de produtos e sistemas que funcionam enquanto você dorme.
Recursos:
→ Roteador de tokens Entelligence: entelligence.ai/blogs/entelligence-token-router
→ Fluxo de trabalho de três modelos que reduziu contas em 80%: entelligence.ai/blogs/our-three-model-coding-workflow-that-cut-our-ai-bill-80
→ Claude Code: claude.ai/code
→ Codex CLI: npmjs.com/package/@openai/codex





