Fable 5 est le meilleur modèle d'IA que j'aie jamais utilisé.
Il est aussi incroyablement cher.
Lors de mes premières heures de test, j'ai presque épuisé la totalité de mon quota d'utilisation.
Et pourtant, je ne faisais rien d'extraordinaire.
Fable coûte deux fois plus cher qu'Opus 4.8.
Et parce qu'il est si intelligent, il a tendance à trop réfléchir — il tourne en boucle et brûle des tokens d'une manière qu'aucun modèle Claude précédent n'a jamais fait.
La plupart des gens l'utilisent complètement de travers.
Voici le système exact que j'ai construit pour réduire mes coûts de tokens Fable de plus de 50 %.
Pas de nouveaux outils. Pas moins de résultats. Juste un routage plus intelligent.
L'erreur que tout le monde commet le premier jour
Vous ouvrez Claude Code.
Fable est désormais le modèle par défaut.
Vous commencez à discuter.
Vous lui demandez de corriger une faute de frappe. Vous lui demandez de formater du JSON. Vous lui demandez de renommer une variable.
Fable réfléchit pendant 12 secondes, brûle 8 000 tokens de raisonnement, renvoie la réponse.
Coût : 0,60 $ pour une tâche que Haiku aurait exécutée pour 0,02 $.
Vous payez le tarif d'un chirurgien pour une conversation banale.
Fable est un architecte.
Pas un colocataire.
Le moment où vous intériorisez cela, tout change.

Le système 10-80-10 (Le cadre exact utilisé par les ingénieurs d'Anthropic eux-mêmes)
Chaque projet Fable comporte trois phases.
La plupart des gens exécutent les trois sur Fable.
La décision intelligente est d'en exécuter seulement deux sur Fable.
Les 10 premiers % — La planification
C'est là que Fable justifie son prix.
Avant de démarrer un projet, utilisez Fable pour définir :
→ La structure et l'approche → Les critères de succès → Les contraintes et cas limites → Ce qui pourrait mal tourner
Pensez à la construction d'une maison.
L'erreur la plus coûteuse est de donner aux constructeurs un mauvais plan.
Obtenez d'abord la bonne architecture.
Fable est extraordinaire pour cela.
Les 80 % du milieu — L'exécution
C'est là que la plupart des tokens sont brûlés.
Les allers-retours. L'itération. Les boucles d'implémentation. Le travail de fond nécessaire pour accomplir les tâches.
Fable n'a pas besoin d'être là.
Passez à Opus 4.8 pour le travail standard. Utilisez Haiku pour les tâches légères. Utilisez Codex ou GPT-5.5 pour l'exécution mécanique.
Vous obtenez une architecture de qualité Fable sans payer le prix Fable pour chaque token d'exécution.
Les 10 derniers % — La révision
Faites revenir Fable.
Demandez-lui de réviser le résultat par rapport au plan initial :
→ Le résultat correspond-il à l'architecture ?
→ Y a-t-il des lacunes ou des cas limites oubliés ?
→ Quelque chose nécessite-t-il une correction avant la mise en production ?
Parce que Fable révise un résultat fini plutôt que de générer à partir de zéro, il utilise une fraction des tokens qu'il aurait brûlés en faisant l'ensemble de la tâche.
[INSÉRER IMAGE 2 — INVITE CI-DESSOUS]

La table de routage CLAUDE.md (Un fichier qui contrôle tout)
C'est le plus grand avantage.
Gardez une seule table de routage dans votre CLAUDE.md.
Laissez Fable agir comme l'orchestrateur qui la lit et répartit le travail vers le bon modèle automatiquement.
Voici la table de routage exacte que j'utilise :
1## Table de routage des modèles23### Fable 5 (orchestrateur uniquement)4Utiliser pour : planification, architecture, révision du résultat final5Ne jamais utiliser pour : tâches mécaniques, génération en masse, code standard6Niveau d'effort : élevé (jamais très élevé — c'est un gouffre financier avec des résultats moins bons)78### Opus 4.8 (exécuteur de raisonnement approfondi)9Utiliser pour : débogage complexe, raisonnement en plusieurs étapes, tout ce qui10 nécessite une vraie réflexion mais n'est pas de l'architecture11Niveau de coût : standard1213### Sonnet 5 (exécuteur de travail mécanique)14Utiliser pour : génération de code, refactoring, travail sur des fonctionnalités standard15Niveau de coût : bon marché1617### Codex / GPT-5.5 (exécuteur pair)18Utiliser pour : tâches d'implémentation, vérification UI/UX,19 travail d'exécution bien spécifié20Remarque : Fable peut apprendre à diriger Codex — enseignez-lui comment une fois21Niveau de coût : souvent gratuit sur le plan Codex2223### Haiku (exécuteur en masse)24Utiliser pour : formatage, lint, modifications simples, code standard,25 refactoring de renommage, échafaudage de tests26Ne jamais lancer d'autres sous-agents depuis Haiku27Niveau de coût : le moins cher2829### Kimi / GLM-5.2 (exécuteur à contexte long)30Utiliser pour : lire des fichiers volumineux, analyse de dépôt à long terme31 afin que Fable ne dépense jamais de tokens pour cela32Niveau de coût : très bon marché3334### DeepSeek / Qwen (tâches subalternes très bon marché)35Utiliser pour : code standard, rédaction de tests, nettoyage de données,36 traductions, première ébauche de documentation, génération en masse37Niveau de coût : quasi gratuit
Fable ne touche jamais directement au travail bon marché.
Il planifie, délègue au bon niveau, puis vérifie les résultats par rapport au plan.
Le cerveau coûteux ne dépense des tokens que pour décider.
Ce seul fichier explique pourquoi ma facture a BAISSÉ alors que ma production a AUGMENTÉ.

La configuration exacte de CLAUDE.md qui m'a fait économiser 70 % de mes tokens
Voici la section d'orchestration complète que j'ai ajoutée à mon CLAUDE.md :
1## Workflow d'orchestration23Vous (Fable) êtes l'orchestrateur. Planifiez, décomposez, synthétisez.4N'exécutez PAS vous-même les tâches mécaniques.56### Règles de délégation :7- Phases lourdes en raisonnement → raisonneur-approfondi (Opus 4.8)8- Travail mécanique → travailleur-rapide (Sonnet/Haiku)9- Analyse de codebase / fichiers volumineux → Kimi (contexte long)10- Code standard / en masse → DeepSeek ou Qwen11- Révision par un pair avec une perspective différente → Codex1213### Codex est un pair, pas un réviseur :14Traitez Codex comme un ingénieur senior talentueux avec une perspective15différente. Pour les décisions à enjeux élevés : chargez Opus + Codex16sur le même problème en parallèle, synthétisez le meilleur des17deux sans montrer à l'un la réponse de l'autre.1819### Discipline de contexte :20Gardez votre propre contexte léger.21Ne relisez jamais les fichiers que vous avez déjà traités.22Résumez les sorties des outils avant de les réinjecter dans le contexte.23Demandez aux modèles de renvoyer des conclusions concises sur lesquelles vous pouvez agir.2425### Niveaux d'effort :26- Planification et architecture : effort élevé27- Passages de révision : effort moyen28- N'utilisez jamais très-élevé/maximum par défaut — coûte plus cher, souvent moins bon
Maintenant, invitez Fable comme un chef technique :
1Objectif : [ce que vous voulez]2Contexte : [fichiers, contraintes, ce qui vous fait peur]34Vous êtes le chef.5Déléguez le raisonnement à raisonneur-approfondi (Opus).6Déléguez le travail subalterne à travailleur-rapide (Sonnet/Haiku).7Utilisez Codex pour les problèmes nécessitant une perspective nouvelle.89Montrez-moi d'abord votre plan, puis exécutez.
C'est tout.
Fable planifie. Tout le reste exécute. La facture reste stable.
Installer le plugin Codex — le geste multiplicateur
C'est la configuration que la plupart des gens sautent.
Codex + Fable ensemble, c'est 10 fois mieux que Fable seul.
Fable fait l'architecture. Codex exécute avec la qualité de GPT-5.5. Vous touchez à peine à vos limites Claude.
Configuration en moins de 5 minutes :
Étape 1 : Installez Codex CLI sur votre machine
1npm install -g @openai/codex
Étape 2 : Ajoutez le plugin dans Claude Code
1/plugin marketplace add openai/codex-plugin-cc2/plugin install codex@openai-codex3/codex:setup
Étape 3 : Créez deux sous-agents dans Claude Code
1/agents23→ raisonneur-approfondi4 Modèle : Opus 4.85 Instructions : "À utiliser pour les phases lourdes en raisonnement, l'architecture,6 le débogage de problèmes complexes. Réfléchissez en profondeur, renvoyez une7 conclusion concise sur laquelle l'orchestrateur peut agir."89→ travailleur-rapide10 Modèle : Sonnet 511 Instructions : "À utiliser pour les tâches mécaniques, le code standard, les tests,12 le formatage, les modifications simples. Exécutez efficacement."
Étape 4 : Demandez à Fable d'écrire un SKILL.md pour Codex
1Écrivez un SKILL.md qui apprend exactement à Codex comment :2- Lire et exécuter des plans d'implémentation3- Exécuter des tests et vous rapporter les résultats4- Gérer la structure de fichiers spécifique de ce projet
Faites en sorte que Codex n'ait besoin d'aucune assistance pour le travail mécanique.
Fable écrit la compétence une fois.
Codex la lit à chaque exécution future.
Votre sortie Codex s'améliore immédiatement de 10 fois.

La commande /loop (La façon la plus puissante d'utiliser Fable actuellement)
La plupart des gens utilisent encore l'ancienne méthode d'invite.
Vous invitez → Fable répond → vous révisez → vous réinvitez → répétez.
Dans ce modèle, vous êtes la boucle.
Vous vérifiez manuellement chaque étape, chaque correction, chaque suivi.
Les boucles vous suppriment en tant que goulot d'étranglement.
Comment ça fonctionne :
Vous donnez un objectif à Fable dès le départ.
Il lance des sous-agents pour travailler vers cet objectif.
Les agents s'invitent eux-mêmes et vous informent quand ils ont terminé.
Les deux commandes :
1/goal — définir la tâche et l'état final23Structure :4/goal [tâche] jusqu'à [état final mesurable] sans [contraintes]56Exemple :7/goal refactoriser le module d'authentification jusqu'à ce que les 47 tests passent8sans toucher au service de paiement ni au schéma de la base de données
1/loop — exécuter une invite automatiquement selon un calendrier23Structure :4/loop [votre invite] --intervalle 30m --expire 8h56Exemple :7/loop exécuter une vérification de sécurité sur tous les points d'accès API8--intervalle 24h --expire 7j
La combinaison :
1/goal reconstruire le composant tableau de bord jusqu'à ce que le score2Lighthouse dépasse 90 sur mobile sans casser les tests existants34/loop exécuter /goal ci-dessus --intervalle 6h --expire 48h
Fable conçoit la boucle. Les modèles moins chers exécutent les 80 % d'exécution à l'intérieur de la boucle. Fable ne revient que lorsque la boucle se ferme ou rencontre un obstacle.
Vous vous réveillez avec une tâche terminée.
[INSÉRER IMAGE 5 — INVITE CI-DESSOUS]
7 invites à exécuter dans Fable dès maintenant
Voici les choses les plus efficaces à faire avec Fable avant de l'utiliser pour autre chose.
Pas du codage d'ambiance.
Pas de livraison de fonctionnalités.
Affûtez chaque système que vous possédez déjà.
1. Trouvez ce qui vaut vraiment la peine d'être exécuté sur Fable
1Vous êtes Fable 5, le modèle le plus performant disponible.23Parcourez mes projets, ma documentation et ma mémoire.45Listez les 5 tâches principales qui valent vraiment la peine d'être exécutées sur vous.67Classez-les avec une raison d'une ligne chacune.89Ne faites pas encore le travail.
2. Repensez la façon dont vous construisez avant de construire quoi que ce soit
1Je veux que vous auditiez et repensiez complètement mon workflow de codage.23Voici comment je travaille actuellement : [décrivez votre processus]45Mon objectif est : [ce que vous essayez de livrer]67Révisez, auditez, affûtez et améliorez mon système.89N'écrivez pas de code. Repensez l'usine avant de la faire fonctionner.
3. Planifiez le grand projet — ne le construisez pas encore
1Je veux planifier : [décrivez le projet]23Ne construisez pas encore.45Exposez le plan complet : phases, décisions clés, risques,6et questions ouvertes.78Signalez tout ce qui pourrait le faire échouer.910Rendez le plan suffisamment clair pour que Sonnet ou Codex puisse11l'exécuter étape par étape sans me poser de questions.
4. Trouvez tout ce qui ne va pas avant de mettre en production
1Je suis sur le point de mettre ce projet en production.23Trouvez d'abord tout ce qui ne va pas.45Lisez l'intégralité de la base de code.67Cherchez les vrais bugs, les cas limites cassés et tout ce qui8va planter devant un utilisateur.910Listez chaque problème avec : comment le reproduire et le correctif.1112Soyez exigeant. Soyez impitoyable.
5. Reconstruisez votre CLAUDE.md à partir de zéro
1Lisez mon CLAUDE.md actuel.23Il a été écrit pour des modèles plus anciens et est gonflé.45Des instructions plus courtes et plus claires sont plus performantes et coûtent moins cher6dans Fable.78Réécrivez-le :9- Supprimez les instructions dont Fable n'a plus besoin10- Resserrez chaque workflow11- Ajoutez la table de routage des modèles de notre conversation12- Gardez chaque section sous 5 lignes si possible1314Fable se débrouillera avec le reste tout seul.
6. Obtenez des conseils commerciaux à partir de tout ce qu'il sait sur vous
1Vous êtes mon conseiller commercial.23Lisez mon document de plan, mes outils connectés et ma mémoire.45Rédigez une évaluation d'une page de mon entreprise et :6- Les 3 principales choses sur lesquelles se concentrer pour les 3 prochains mois7- Quoi abandonner et pourquoi8- Une chose à laquelle je suis probablement aveugle
7. Balayage de sécurité en pilote automatique
1/loop exécuter une vérification de sécurité sur tous mes points d'accès API.23Recherchez : clés exposées, authentification manquante, lacunes de limite de débit,4vecteurs d'injection, et tout ce qu'un utilisateur malveillant pourrait exploiter.56Signalez uniquement les problèmes réels avec des niveaux de gravité.78--intervalle 24h --expire 7j

Niveaux d'effort — le paramètre le plus mal compris
La plupart des gens utilisent par défaut le niveau maximum ou très élevé.
C'est faux.
Voici ce qui se passe réellement à chaque niveau :
→ Faible : Rapide, bon marché, étonnamment capable pour les tâches simples. Beaucoup de gens rapportent des résultats étonnants ici.
→ Moyen : Le point idéal. Fable en moyen bat Opus en très élevé. Utilisez ceci par défaut.
→ Élevé : À utiliser pour : débogage difficile, refactoring multi-fichiers, décisions d'architecture. Véritable puissance de raisonnement.
→ Très élevé / Maximum : Gouffre à tokens. Produit souvent des résultats PIRE qu'Élevé. Réservez aux problèmes les plus difficiles que vous ayez jamais rencontrés.
La règle : commencez par Moyen. Passez à Élevé uniquement si la qualité est réellement insuffisante. Ne mettez jamais Maximum par défaut.
Un autre paramètre qui tue les budgets :
Réflexion approfondie — laissez-la désactivée par défaut.
Activez-la uniquement pour les problèmes qui la nécessitent vraiment. La laisser activée en permanence, c'est comme laisser votre moteur tourner dans l'allée.
L'astuce /handoff — corrigez le gonflement du contexte des sessions
Les longues sessions sont un tueur silencieux.
Chaque tour renvoie l'historique complet de la conversation.
Une session de 200 000 tokens devient l'élément le plus cher de votre facture.
La solution : ouvrez fréquemment de nouvelles discussions.
Mais vous ne voulez pas perdre le contexte quand vous le faites.
Utilisez la compétence /handoff :
1Donnez-moi une invite que je peux utiliser pour redémarrer cette session dans2une nouvelle discussion sans perdre aucun de notre contexte.34Incluez :5- Ce que nous avons décidé6- Ce que nous avons construit7- Quelles sont les prochaines étapes8- Toute contrainte importante dont je dois me souvenir910Faites-la de moins de 500 tokens pour que la nouvelle session démarre légère.
Copiez ce résultat.
Ouvrez une nouvelle discussion.
Collez-le.
Continuez exactement là où vous vous êtes arrêté pour une fraction du coût de contexte.
Nouvelle session toutes les 30 à 60 minutes = économies massives de tokens.

Les 4 erreurs coûteuses à éviter
Erreur 1 : Fable est désormais le modèle par défaut.
Lorsque vous ouvrez Claude Code, il utilise automatiquement Fable.
Vérifiez le sélecteur de modèle avant chaque session.
Cette seule habitude m'a évité d'utiliser accidentellement Fable pour des discussions normales plus de fois que je ne veux l'admettre.
Erreur 2 : Pas de plafond de dépenses.
Le 7 juillet, Fable passe hors des abonnements standard.
Ajoutez une carte de crédit et définissez immédiatement un plafond mensuel strict.
Paramètres → Utilisation → Ajuster la limite.
Fable brûle les tokens rapidement lors des exécutions autonomes et des longues sessions.
Sans plafond strict, une seule exécution d'agent pendant la nuit peut accumuler une facture avant votre réveil.
Quelqu'un a déjà reçu une facture de 960 $ pour une seule invite.
Fixez le plafond ce soir.
Erreur 3 : Lui demander d'expliquer son raisonnement.
Cette seule demande peut faire basculer les classificateurs et votre travail est discrètement traité par un modèle plus faible pendant que vous pensez être toujours sur Fable.
Sautez les demandes de "pourquoi". Jugez la qualité du résultat, pas le processus.
Erreur 4 : Lui donner de minuscules invites au compte-gouttes.
Fable peut retenir des heures de contexte dans sa tête.
Donnez-lui tout le problème d'un coup, même s'il est désordonné.
Contexte complet. Les contraintes. Ce qui vous fait vraiment peur.
J'ai donné à Fable un refactoring que je redoutais depuis des semaines en un seul message. Il est revenu avec le travail terminé.
Lui donner des informations au compte-gouttes gaspille la seule chose dans laquelle il excelle.

La comparaison des coûts des modèles — sachez ce que vous payez réellement
Avant de router quoi que ce soit, connaissez le prix de chaque modèle :
Modèle Entrée ($/M) Sortie ($/M) Meilleur pour
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
Fable 5 ~15 $ ~75 $ Planification, révision
Opus 4.8 ~5 $ ~25 $ Raisonnement approfondi
Sonnet 5 ~3 $ ~15 $ Exécution standard
Kimi K2.7 ~0,95 $ ~4,00 $ Codage en masse, contexte long
GLM-5.2 ~1,40 $ ~4,40 $ Travail à l'échelle du dépôt
DeepSeek v4 ~0,28 $ ~1,10 $ Travail subalterne très bon marché
Haiku 4.5 ~1 $ ~5 $ Nettoyage, formatage
Local (Qwen/Llama) 0 $ 0 $ Saisie automatique, code standard
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
L'écart entre Fable et DeepSeek : 53x à l'entrée. 68x à la sortie.
Le même agent de refactoring en 30 étapes : → Tout Fable : ~25 $ par exécution → Plan Fable + exécution Kimi : ~1,40 $ par exécution → Même code livré. Mêmes tests réussis.
Le routage n'est pas une question d'être bon marché.
Il s'agit d'être précis.

Le système complet — à quoi il ressemble en fonctionnement
Avant ce système :
→ Tout est routé vers Fable
→ La facture grimpe à chaque livraison
→ Les limites d'utilisation sont atteintes en milieu de session
→ Vous rationnez les invites comme un voyageur au budget serré
Après ce système :
→ Fable gère les 10 % qui en ont réellement besoin
→ Les modèles bon marché gèrent les 80 % d'exécution
→ /loop fonctionne pendant la nuit sans toucher à votre limite
→ Vous livrez plus, dépensez moins, n'atteignez jamais une limite de débit
Le résumé en trois lignes :
Fable planifie. Les autres exécutent. Fable révise.
Cette seule règle réduit votre facture de plus de 50 % avant même de changer quoi que ce soit d'autre.
Le reste n'est que de l'optimisation.
Exécutez ceci ce soir
Déposez ceci dans Fable maintenant :
Lis mon CLAUDE.md actuel et tous mes projets actifs.
Ton travail : mettre en place le système de routage 10-80-10 pour mon workflow.
Crée :
- Un CLAUDE.md mis à jour avec la table de routage complète des modèles
- Une liste de mes tâches actives actuelles classées par modèle qui devrait gérer chacune
- Trois invites /goal que je peux exécuter ce soir sur des modèles moins chers en fonction de ce que tu vois dans mes projets
N'exécute rien. Planifie et route seulement.
Fable fait la planification.
Vous vous réveillez avec un système de routage complet.
Et une facture qui ne vous donne pas une crise cardiaque.
Si cela vous a fait économiser de l'argent :
→ Republiez pour que d'autres créateurs cessent de brûler leurs budgets
→ Suivez @sairahul1 pour plus de systèmes comme celui-ci
→ Mettez ceci en favori — les configurations CLAUDE.md fonctionnent, collez-les ce soir
Abonnez-vous à theaibuilders.co pour plus d'articles intéressants comme celui-ci
J'écris sur l'IA, la création de produits et les systèmes qui fonctionnent pendant que vous dormez.
Ressources :
→ Routeur de tokens Entelligence : entelligence.ai/blogs/entelligence-token-router
→ Workflow à trois modèles qui a réduit les factures de 80 % : entelligence.ai/blogs/our-three-model-coding-workflow-that-cut-our-ai-bill-80
→ Claude Code : claude.ai/code
→ Codex CLI : npmjs.com/package/@openai/codex





