Fable 5 es el mejor modelo de IA que he usado.
También es increíblemente caro.
En mis primeras horas de prueba, casi agoté todo mi límite de uso.
Y ni siquiera estaba haciendo nada loco.
Fable cuesta el doble que Opus 4.8.
Y como es tan inteligente, en realidad piensa de más — ejecuta bucles y quema tokens de formas que ningún modelo anterior de Claude ha hecho.
La mayoría de la gente lo está usando completamente mal.
Aquí está el sistema exacto que construí para reducir mis costos de tokens de Fable en más del 50%.
Sin nuevas herramientas. Sin menos resultados. Solo un enrutamiento más inteligente.
El error que todos cometen el primer día
Abres Claude Code.
Fable es ahora el modelo predeterminado.
Empiezas a chatear.
Le pides que corrija un error tipográfico. Le pides que formatee algo de JSON. Le pides que renombre una variable.
Fable piensa durante 12 segundos, quema 8,000 tokens de razonamiento, devuelve la respuesta.
Costo: $0.60 por una tarea que Haiku habría resuelto por $0.02.
Estás pagando tarifas de cirujano por charlas triviales.
Fable es un arquitecto.
No un compañero de cuarto.
En el momento en que internalizas eso, todo cambia.

El Sistema 10-80-10 (El marco exacto que los propios ingenieros de Anthropic usan)
Cada proyecto de Fable tiene tres fases.
La mayoría de la gente ejecuta las tres en Fable.
La jugada inteligente es ejecutar solo dos de ellas en Fable.
El primer 10% — Planificación
Aquí es donde Fable justifica su precio.
Antes de que comience cualquier proyecto, usa Fable para definir:
→ La estructura y el enfoque → Los criterios de éxito → Las restricciones y los casos límite → Lo que podría salir mal
Piensa en construir una casa.
El error más caro es darle a los constructores un mal plano.
Primero, consigue la arquitectura correcta.
Fable es extraordinario en esto.
El 80% intermedio — Ejecución
Aquí es donde se queman la mayoría de los tokens.
El ir y venir. La iteración. Los bucles de implementación. El trabajo pesado de completar las tareas.
Fable no necesita estar aquí.
Cambia a Opus 4.8 para el trabajo estándar. Usa Haiku para tareas ligeras. Usa Codex o GPT-5.5 para la ejecución mecánica.
Obtienes la arquitectura de calidad de Fable sin pagar los precios de Fable por cada token de ejecución.
El último 10% — Revisión
Trae a Fable de vuelta.
Pídele que revise el resultado contra el plan original:
→ ¿El resultado coincide con la arquitectura?
→ ¿Hay vacíos o casos límite que se pasaron por alto?
→ ¿Hay algo que necesite arreglarse antes de enviarlo?
Debido a que Fable revisa un resultado terminado en lugar de generarlo desde cero, usa una fracción de los tokens que habría quemado haciendo toda la tarea.
[INSERT IMAGE 2 — PROMPT BELOW]

La tabla de enrutamiento CLAUDE.md (Un archivo que lo controla todo)
Este es el mayor descubrimiento.
Mantén una única tabla de enrutamiento en tu CLAUDE.md.
Deja que Fable actúe como el orquestador que la lee y envía el trabajo al modelo correcto automáticamente.
Aquí está la tabla de enrutamiento exacta que uso:
1## Tabla de Enrutamiento de Modelos23### Fable 5 (solo orquestador)4Usar para: planificación, arquitectura, revisión del resultado final5Nunca usar para: tareas mecánicas, generación masiva, código repetitivo6Nivel de esfuerzo: alto (nunca xalto — es un horno con peores resultados)78### Opus 4.8 (ejecutor de razonamiento profundo)9Usar para: depuración compleja, razonamiento de varios pasos, cualquier cosa10 que necesite pensamiento real pero no sea arquitectura11Nivel de costo: estándar1213### Sonnet 5 (ejecutor de trabajo mecánico)14Usar para: generación de código, refactorización, trabajo de funciones estándar15Nivel de costo: barato1617### Codex / GPT-5.5 (ejecutor par)18Usar para: tareas de implementación, verificación de UI/UX,19 trabajo de ejecución bien especificado20Nota: Fable puede aprender a dirigir a Codex — enséñale cómo una vez21Nivel de costo: a menudo gratis en el plan Codex2223### Haiku (ejecutor masivo)24Usar para: formateo, lint, ediciones simples, código repetitivo,25 refactorizaciones de renombre, andamios de pruebas26Nunca generar más subagentes desde Haiku27Nivel de costo: más barato2829### Kimi / GLM-5.2 (ejecutor de contexto largo)30Usar para: leer archivos enormes, análisis de repositorio de largo alcance31 para que Fable nunca gaste tokens en ello32Nivel de costo: muy barato3334### DeepSeek / Qwen (trabajo pesado súper barato)35Usar para: código repetitivo, escritura de pruebas, limpieza de datos,36 traducciones, borradores de documentación, generación masiva37Nivel de costo: casi gratis
Fable nunca toca el trabajo barato directamente.
Planifica, delega al nivel correcto, luego verifica los resultados contra el plan.
El cerebro caro solo gasta tokens decidiendo.
Ese único archivo es la razón por la que mi factura BAJÓ mientras mi producción SUBIÓ.

La configuración exacta de CLAUDE.md que ahorró el 70% de mis tokens
Aquí está la sección de orquestación completa que puse en mi CLAUDE.md:
1## Flujo de Trabajo de Orquestación23Tú (Fable) eres el orquestador. Planifica, descompón, sintetiza.4NO ejecutes tareas mecánicas tú mismo.56### Reglas de delegación:7- Fases con mucho razonamiento → razonador-profundo (Opus 4.8)8- Trabajo mecánico → trabajador-rápido (Sonnet/Haiku)9- Análisis de código base / archivos enormes → Kimi (contexto largo)10- Código repetitivo / masivo → DeepSeek o Qwen11- Revisión por pares desde una perspectiva diferente → Codex1213### Codex es un par, no un revisor:14Trata a Codex como un ingeniero sénior crack desde una perspectiva15diferente. Para decisiones de alto riesgo: asigna a Opus + Codex16el mismo problema en paralelo, sintetiza lo mejor de17ambos sin mostrarle a ninguno la respuesta del otro.1819### Disciplina de contexto:20Mantén tu propio contexto ligero.21Nunca vuelvas a leer archivos que ya hayas procesado.22Resume los resultados de las herramientas antes de retroalimentarlos al contexto.23Pide a los modelos que devuelvan conclusiones concisas sobre las que puedas actuar.2425### Niveles de esfuerzo:26- Planificación y arquitectura: esfuerzo alto27- Pasadas de revisión: esfuerzo medio28- Nunca uses xalto/máx por defecto — cuesta más, a menudo es peor
Ahora, indícale a Fable como un líder técnico:
1Objetivo: [lo que quieres]2Contexto: [archivos, restricciones, de lo que tienes miedo]34Eres el líder.5Delega el razonamiento a razonador-profundo (Opus).6Delega el trabajo pesado a trabajador-rápido (Sonnet/Haiku).7Usa Codex para problemas de perspectiva nueva.89Muéstrame tu plan primero, luego ejecuta.
Eso es todo.
Fable planifica. Todo lo demás ejecuta. La factura se mantiene plana.
Instalando el plugin de Codex — el movimiento multiplicador
Esta es la configuración que la mayoría de la gente se salta.
Codex + Fable juntos es 10 veces mejor que Fable solo.
Fable hace la arquitectura. Codex ejecuta con calidad GPT-5.5. Apenas tocas tus límites de Claude.
Configuración en menos de 5 minutos:
Paso 1: Instala Codex CLI en tu máquina
1npm install -g @openai/codex
Paso 2: Añade el plugin dentro de Claude Code
1/plugin marketplace add openai/codex-plugin-cc2/plugin install codex@openai-codex3/codex:setup
Paso 3: Crea dos subagentes en Claude Code
1/agents23→ razonador-profundo4 Modelo: Opus 4.85 Instrucciones: "Usar para fases con mucho razonamiento, arquitectura,6 depuración de problemas complejos. Piensa a fondo, devuelve una7 conclusión concisa sobre la que el orquestador pueda actuar."89→ trabajador-rápido10 Modelo: Sonnet 511 Instrucciones: "Usar para tareas mecánicas, código repetitivo, pruebas,12 formateo, ediciones simples. Ejecuta de manera eficiente."
Paso 4: Pídele a Fable que escriba un SKILL.md para Codex
1Escribe un SKILL.md que le enseñe a Codex exactamente cómo:2- Leer y ejecutar planes de implementación3- Ejecutar pruebas e informar los resultados de vuelta a ti4- Manejar la estructura de archivos específica en este proyecto
Haz que Codex necesite cero supervisión en el trabajo mecánico.
Fable escribe la habilidad una vez.
Codex la lee en cada ejecución futura.
Tu resultado de Codex mejora inmediatamente 10 veces.

El comando /loop (La forma más poderosa de usar Fable ahora mismo)
La mayoría de la gente todavía usa el método antiguo de indicaciones.
Tú indicas → Fable responde → tú revisas → tú vuelves a indicar → repite.
En ese modelo, tú eres el bucle.
Verificas manualmente cada paso, cada corrección, cada seguimiento.
Los bucles te eliminan a ti como el cuello de botella.
Cómo funciona:
Le das un objetivo a Fable desde el principio.
Él crea subagentes para trabajar hacia ese objetivo.
Los agentes se indican a sí mismos e informan cuando terminan.
Los dos comandos:
1/goal — define la tarea y el estado final23Estructura:4/goal [tarea] hasta [estado final medible] sin [restricciones]56Ejemplo:7/goal refactorizar el módulo de autenticación hasta que las 47 pruebas pasen8sin tocar el servicio de pagos ni el esquema de la base de datos
1/loop — ejecuta una indicación en un horario automáticamente23Estructura:4/loop [tu indicación] --intervalo 30m --expira 8h56Ejemplo:7/loop ejecutar verificación de seguridad en todos los endpoints de la API8--intervalo 24h --expira 7d
La combinación:
1/goal reconstruir el componente del dashboard hasta que la puntuación2de Lighthouse supere 90 en móvil sin romper las pruebas existentes34/loop ejecutar /goal de arriba --intervalo 6h --expira 48h
Fable diseña el bucle. Los modelos más baratos ejecutan el 80% de la ejecución dentro del bucle. Fable solo regresa cuando el bucle se cierra o encuentra un bloqueo.
Te despiertas con una tarea terminada.
[INSERT IMAGE 5 — PROMPT BELOW]
7 indicaciones para ejecutar en Fable ahora mismo
Estas son las cosas de mayor apalancamiento para hacer con Fable antes de usarlo para cualquier otra cosa.
No es codificación por vibra.
No es enviar funciones.
Es afilar cada sistema que ya tienes.
1. Encuentra lo que realmente vale la pena ejecutar en Fable
1Eres Fable 5, el modelo más capaz disponible.23Revisa mis proyectos, documentos y memoria.45Enumera las 5 tareas principales que realmente valgan la pena ejecutar en ti.67Clasifícalas con una razón de una línea cada una.89No hagas el trabajo todavía.
2. Rediseña cómo construyes antes de construir cualquier cosa
1Quiero que audites y rediseñes completamente mi flujo de trabajo de codificación.23Así es como trabajo actualmente: [describe tu proceso]45Mi objetivo es: [lo que estás tratando de enviar]67Revisa, audita, afila y mejora mi sistema.89No escribas código. Rediseña la fábrica antes de que la pongamos en marcha.
3. Planifica el gran proyecto — no lo construyas todavía
1Quiero planificar: [describe el proyecto]23No construyas todavía.45Presenta el plan completo: fases, decisiones clave, riesgos6y preguntas abiertas.78Señala cualquier cosa que pueda hundirlo.910Haz que el plan sea lo suficientemente claro como para que Sonnet o Codex puedan11ejecutarlo paso a paso sin hacerme preguntas.
4. Encuentra todo lo que está mal antes de enviar
1Estoy a punto de enviar este proyecto.23Primero, encuentra todo lo que está mal.45Lee todo el código base.67Busca errores reales, casos límite rotos y cualquier cosa que8se rompa frente a un usuario.910Enumera cada problema con: cómo reproducirlo y la solución.1112Mantén un estándar alto. Sé implacable.
5. Reconstruye tu CLAUDE.md desde cero
1Lee mi CLAUDE.md actual.23Fue escrito para modelos más antiguos y está inflado.45Las instrucciones más cortas y limpias funcionan mejor y cuestan menos6en Fable.78Reescríbelo:9- Elimina las instrucciones que Fable ya no necesita10- Ajusta cada flujo de trabajo11- Añade la tabla de enrutamiento de modelos de nuestra conversación12- Mantén cada sección en menos de 5 líneas cuando sea posible1314Fable descubrirá el resto por sí mismo.
6. Obtén consejos de negocio de todo lo que sabe sobre ti
1Eres mi asesor de negocios.23Lee mi documento de plan, herramientas conectadas y memoria.45Escribe una evaluación de una página de mi negocio y:6- Las 3 cosas principales en las que enfocarme para los próximos 3 meses7- Qué dejar y por qué8- Una cosa a la que probablemente estoy ciego
7. Barrido de seguridad en piloto automático
1/loop ejecutar una verificación de seguridad en todos mis endpoints de la API.23Busca: claves expuestas, autenticación faltante, brechas en límites de tasa,4vectores de inyección y cualquier cosa que un usuario malintencionado pueda explotar.56Informa solo problemas reales con clasificaciones de gravedad.78--intervalo 24h --expira 7d

Niveles de esfuerzo — la configuración más malinterpretada
La mayoría de la gente usa máx o xalto por defecto.
Esto está mal.
Esto es lo que realmente sucede en cada nivel:
→ Bajo: Rápido, barato, sorprendentemente capaz para tareas simples. Mucha gente reporta resultados increíbles aquí.
→ Medio: El punto ideal. Fable en medio supera a Opus en extra alto. Usa esto por defecto.
→ Alto: Usar para: depuración difícil, refactorizaciones de múltiples archivos, decisiones de arquitectura. Poder de razonamiento real.
→ xalto / máx: Horno de tokens. A menudo produce resultados PEORES que Alto. Reserva para los problemas más difíciles que hayas enfrentado.
La regla: empieza en Medio. Pasa a Alto solo si la calidad realmente se queda corta. Nunca uses máx por defecto.
Una configuración más que mata los presupuestos:
Pensamiento Extendido — déjalo desactivado por defecto.
Actívalo solo para problemas que realmente lo requieran. Dejarlo activado permanentemente es como dejar el motor encendido en la entrada de tu casa.
El truco /handoff — soluciona la hinchazón del contexto de la ventana
Las sesiones largas son un asesino silencioso.
Cada turno reenvía el historial completo de la conversación.
Una sesión de 200k tokens se convierte en lo más caro de tu factura.
La solución: abre nuevos chats con frecuencia.
Pero no quieres perder el contexto cuando lo haces.
Usa la habilidad /handoff:
1Dame una indicación que pueda usar para reiniciar esta sesión en2un nuevo chat sin perder nada de nuestro contexto.34Incluye:5- Lo que decidimos6- Lo que construimos7- Cuáles son los siguientes pasos8- Cualquier restricción importante que deba recordar910Haz que tenga menos de 500 tokens para que la nueva sesión comience ligera.
Copia ese resultado.
Abre un nuevo chat.
Pégalo.
Continúa exactamente donde lo dejaste a una fracción del costo de contexto.
Sesión nueva cada 30–60 minutos = ahorro masivo de tokens.

Los 4 errores caros que debes evitar
Error 1: Fable es ahora el predeterminado.
Cuando abres Claude Code, usa automáticamente Fable.
Verifica el selector de modelo antes de cada sesión.
Este único hábito me ha pillado ejecutando Fable accidentalmente en chats normales más veces de las que quiero admitir.
Error 2: Sin límite de gasto.
El 7 de julio, Fable se mueve fuera de las suscripciones estándar.
Añade una tarjeta de crédito y establece un límite mensual duro de inmediato.
Configuración → Uso → Ajustar Límite.
Fable quema tokens rápido en ejecuciones autónomas y sesiones largas.
Sin un límite duro, una ejecución de agente nocturna puede acumular una factura antes de que te despiertes.
Alguien ya recibió una factura de $960 por una sola indicación.
Establece el límite esta noche.
Error 3: Pedirle que explique su razonamiento.
Esa única solicitud puede activar clasificadores y tu trabajo es manejado silenciosamente por un modelo más débil mientras piensas que todavía estás en Fable.
Omite las solicitudes de "por qué". Juzga la calidad del resultado, no el proceso.
Error 4: Darle indicaciones pequeñas de a poco.
Fable mantiene horas de contexto en su cabeza.
Dale todo el desastre de una vez.
Contexto completo. Las restricciones. De lo que realmente tienes miedo.
Le di a Fable una refactorización que había estado temiendo durante semanas en un solo mensaje breve. Regresó hecha.
Darle indicaciones pequeñas de a poco desperdicia lo único en lo que es mejor.

La comparación de costos de modelos — sabe lo que realmente estás pagando
Antes de enrutar cualquier cosa, conoce el precio de cada modelo:
Modelo Entrada ($/M) Salida ($/M) Mejor para
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
Fable 5 ~$15 ~$75 Planificación, revisión
Opus 4.8 ~$5 ~$25 Razonamiento profundo
Sonnet 5 ~$3 ~$15 Ejecución estándar
Kimi K2.7 ~$0.95 ~$4.00 Codificación masiva, contexto largo
GLM-5.2 ~$1.40 ~$4.40 Trabajo a escala de repositorio
DeepSeek v4 ~$0.28 ~$1.10 Trabajo pesado súper barato
Haiku 4.5 ~$1 ~$5 Limpieza, formateo
Local (Qwen/Llama) $0 $0 Autocompletado, código repetitivo
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
La brecha entre Fable y DeepSeek: 53x en entrada. 68x en salida.
El mismo agente de refactorización de 30 pasos: → Todo Fable: ~$25 por ejecución → Plan de Fable + ejecución de Kimi: ~$1.40 por ejecución → Mismo código enviado. Mismas pruebas pasando.
Enrutar no se trata de ser barato.
Se trata de ser preciso.

El sistema completo — cómo se ve en funcionamiento
Antes de este sistema:
→ Todo se enruta a Fable
→ La factura se dispara cada vez que envías
→ Los límites de uso se alcanzan a mitad de sesión
→ Racionas las indicaciones como un viajero con presupuesto ajustado
Después de este sistema:
→ Fable maneja el 10% que realmente lo necesita
→ Los modelos baratos manejan el 80% de la ejecución
→ /loop se ejecuta durante la noche sin tocar tu límite
→ Envías más, gastas menos, nunca alcanzas un límite de tasa
El resumen de tres líneas:
Fable planifica. Otros ejecutan. Fable revisa.
Esa única regla reduce tu factura en más del 50% antes de que cambies cualquier otra cosa.
El resto es optimización.
Ejecuta esto esta noche
Pon esto en Fable ahora mismo:
Lee mi CLAUDE.md actual y todos mis proyectos activos.
Tu trabajo: configurar el sistema de enrutamiento 10-80-10 para mi flujo de trabajo.
Crea:
- CLAUDE.md actualizado con la tabla de enrutamiento de modelos completa
- Una lista de mis tareas activas actuales clasificadas por qué modelo debería manejar cada una
- Tres indicaciones /goal que pueda ejecutar esta noche en modelos más baratos basadas en lo que ves en mis proyectos
No ejecutes nada. Solo planifica y enruta.
Fable hace la planificación.
Te despiertas con un sistema de enrutamiento completo.
Y una factura que no te da un infarto.
Si esto te ahorró dinero:
→ Comparte para que otros creadores dejen de quemar sus presupuestos
→ Sigue a @sairahul1 para más sistemas como este
→ Marca esto como favorito — las configuraciones de CLAUDE.md funcionan, pégalas esta noche
Suscríbete a theaibuilders.co para más artículos interesantes como este
Escribo sobre IA, creación de productos y sistemas que funcionan mientras duermes.
Recursos:
→ Enrutador de tokens Entelligence: entelligence.ai/blogs/entelligence-token-router
→ Flujo de trabajo de tres modelos que redujo las facturas un 80%: entelligence.ai/blogs/our-three-model-coding-workflow-that-cut-our-ai-bill-80
→ Claude Code: claude.ai/code
→ Codex CLI: npmjs.com/package/@openai/codex





