Como reduzir seus custos com tokens do Fable 5 em mais de 50%
O Claude Fable 5 é o melhor modelo de IA que já usei. Ponto final.
O problema é que ele é incrivelmente caro.
Nas primeiras horas de teste, quase estourei todo o meu limite de uso — e nem estava fazendo nada absurdo.
O Fable custa exatamente o dobro do Opus 4.8 e, por ser tão inteligente, ele acaba pensando demais, criando loops e queimando tokens de uma forma que nenhum modelo anterior do Claude fez.
Aprender a usar esse novo modelo corretamente é mais importante do que nunca.
Neste guia, vou mostrar o sistema 10-80-10 que desenvolvi para reduzir significativamente meus custos com tokens do Fable — e esses conselhos vêm diretamente dos engenheiros da Anthropic.
No final do artigo, criei um documento que você pode colocar diretamente no Fable, resumindo todo o meu framework.
Este documento vai reduzir imediatamente seus gastos com tokens.
Fique até o final e vou compartilhá-lo com você diretamente.

Meu documento do framework
I: Sistema 10-80-10 Explicado
O sistema 10-80-10 é um framework simples para usar o Fable de forma eficiente, apenas onde ele é realmente necessário.
Este é exatamente o framework que os engenheiros da Anthropic usam.
Veja como funciona:
Os primeiros 10%: Planejamento
Antes de iniciar qualquer projeto de IA, use o Fable para definir a estrutura, abordagem, critérios de sucesso e restrições.
Pense como construir uma casa. A parte mais importante é acertar a arquitetura e o planejamento. Caso contrário, os construtores vão executar um plano ruim.
O Fable 5 é um excelente arquiteto; use-o como tal.
Os 80% intermediários: Execução
A maioria dos tokens é queimada na ida e volta, na iteração, nos pequenos ajustes, no trabalho braçal de concluir tarefas.
Para a camada de execução dos seus projetos de IA, use um modelo mais barato, como Opus 4.8 para trabalhos padrão ou Haiku para tarefas leves.
Você obtém o benefício da arquitetura do Fable sem pagar o preço do Fable por cada token de execução (que é exagero, afinal).
Os 10% finais: Revisão
Quando a execução for concluída, traga o Fable de volta. Peça para ele revisar o resultado em relação à arquitetura original.
O resultado corresponde ao plano? Existem lacunas? Precisa de ajustes antes de publicar?
Esta passada final é onde a inteligência do Fable capta o que modelos mais baratos perdem e, como está revisando um resultado finalizado em vez de gerar do zero, usa muito menos tokens do que usaria se tivesse feito a tarefa inteira.

Sistema 10-80-10
Este é o framework 10-80-10 completo que permite obter todos os benefícios do Fable, sem os custos de tokens.
Modelos como Opus 4.8 são igualmente capazes de lidar com a camada de execução, e este sistema evita a tendência do Fable de querer deixar tudo "perfeito" com múltiplos loops, pesquisa aprofundada, etc.
II: Loops Explicados
Vou fazer um artigo detalhado sobre isso, mas quero abordar brevemente o /loop, pois é a forma mais poderosa de usar o Fable 5 atualmente.
Lance Martin (@RLanceMartin), engenheiro da Anthropic, publicou um guia sobre como projetar loops para modelos da classe Mythos.
Recomendo fortemente a leitura deste artigo, mas vou resumir abaixo.
https://x.com/RLanceMartin/status/2064397389189071163
O Método Antigo vs. O Novo Método de Prompting
O método antigo de prompting era assim:
Você dá o prompt → Claude responde → Você revisa → Você dá outro prompt → Repete
Nesse modelo, você é o loop.
Você verifica manualmente cada etapa de verificação, cada correção e cada acompanhamento.
Os loops automatizam todo esse processo e removem você como gargalo.
Com a engenharia de loops, você define um objetivo para o Fable antecipadamente, e ele cria subagentes para trabalhar em direção a esse objetivo.
Projete o loop → Fable cria subagentes de verificação → Agentes se autopromovem para concluir o objetivo

Engenharia de prompt versus engenharia de loops
/goal e /loop explicados
Esses dois comandos são a implementação prática da engenharia de loops dentro do Claude Code.
/goal é o ponto de partida.
ESTRUTURA DO PROMPT
/goal [tarefa] até [estado final mensurável] sem [restrições]
/loop leva isso um passo adiante.
Em vez de uma única execução, o /loop reexecuta o prompt em um intervalo predeterminado.
/loop [seu prompt aqui] --interval 30m --expires 8h

/goal versus /loop
A combinação é extremamente poderosa.
Use /goal para definir a tarefa uma vez e use /loop para executá-la automaticamente no cronograma que fizer sentido para o trabalho.
Usando engenharia de loops na prática para gastar menos tokens
É aqui que o sistema 10-80-10 faz sua mágica.
Com o framework 10-80-10, o Fable lida com os 10% de planejamento inicial, arquitetando o loop; o modelo mais barato lida com os 80% de execução; e o Fable só volta quando o loop fecha ou quando necessário.
Você pode até usar o GPT-5.5 na camada de execução, o que pode reduzir os gastos com tokens em 50% ou mais.
III: Dicas Gerais para Economizar Tokens
O sistema 10-80-10 e os loops cuidam da eficiência macro — estes são os ajustes menores que também fazem diferença.
- Seleção de Esforço
Comece com esforço médio, não no máximo.
Fable no médio supera o Opus no extra alto. Só aumente se estiver realmente enfrentando problemas de qualidade. Deixar no máximo em tudo é uma das formas mais rápidas de queimar seu limite.
Algumas pessoas até relatam usar o Fable no esforço Baixo e obter resultados incríveis.
- Exclua skills e instruções antigas
Prompts criados para modelos anteriores geralmente têm desempenho inferior no Fable.
Instruções mais curtas e limpas têm melhor desempenho e custam menos dentro do Fable (o Fable descobre as coisas sozinho de qualquer forma).
- Dê o "porquê" de tudo para o Fable
O Fable acerta na primeira vez com mais frequência quando entende a intenção por trás da solicitação.
Menos correções e iterações também significam muito menos tokens queimados.
Observe que este modelo foi construído para trabalho totalmente autônomo e, se você não der o "porquê" das coisas, ele precisa pensar mais para definir os próximos passos.
- /usage
Monitore seu uso ativamente. Execute /usage no Claude Code regularmente. Quando o Fable migrar para pagamento por token em 7 de julho, isso se tornará essencial.
Escrevi um guia completo de prompting para o Fable 5 aqui — muitas das dicas mencionadas aqui também reduzirão seus gastos com tokens
https://x.com/aiedge_/status/2065064961999847849
IV: Erros Caros com o Fable
Estes são dois erros que vale a pena destacar porque são fáceis de passar despercebidos e podem ser caros se não forem corrigidos.
Erro 1: Usar o Fable sem querer.
Ao abrir o Claude Code ou o aplicativo Claude, agora ele usa o Fable por padrão.
A Anthropic está ativamente incentivando as pessoas a testar o modelo agora.
Conselho simples: Verifique o seletor de modelo antes de cada sessão. Já me peguei usando o Fable acidentalmente em conversas normais.
Erro 2: Sem limite de gastos
Em 7 de julho, o Fable sai das assinaturas padrão.
Se quiser continuar usando além do limite do seu plano, você precisará adicionar um cartão de crédito e pagar por token.
A armadilha é não ter um limite rígido no seu cartão de crédito.
O Fable queima tokens rapidamente em execuções autônomas e sessões longas. Sem um limite, você pode acumular uma conta significativa antes mesmo de perceber.
Você pode definir seu gasto mensal em Configurações → Uso → Ajustar Limite

Definir gasto mensal
Conclusão
Então, é isso.
Meu framework completo para reduzir significativamente os custos com tokens do Fable.
Espero que você tenha achado este artigo valioso.
Se gostou, não deixe de me seguir @milesdeutscher e @aiedge_ — toda semana publico guias práticos de IA para mantê-lo à frente neste espaço louco.
Conforme prometido, criei um documento que você pode enviar diretamente para o Fable para reduzir os gastos com tokens o mais rápido possível.

Documento do sistema 10-80-10 prévia
Para acessar o documento completo:
- Inscreva-se gratuitamente na newsletter AI Edge
- Entre na minha comunidade gratuita do Instagram para que eu possa enviá-lo para você
Comece por aqui.👇

Obrigado por ler até aqui.💙





