Fable 5 es el mejor modelo de IA que he usado.
También es increíblemente caro.
En mis primeras horas de prueba, casi agoté todo mi límite de uso.
Y ni siquiera estaba haciendo nada loco.
Fable cuesta el doble que Opus 4.8.
Y como es tan inteligente, en realidad piensa demasiado — ejecutando bucles y quemando tokens de formas que ningún modelo anterior de Claude ha hecho.
La mayoría de la gente lo está usando completamente mal.
Aquí está el sistema exacto que construí para reducir mis costos de tokens de Fable en más del 50%.
Sin nuevas herramientas. Sin menos resultados. Solo un enrutamiento más inteligente.
El error que todos cometen el primer día
Abres Claude Code.
Fable es ahora el modelo predeterminado.
Empiezas a chatear.
Le pides que corrija un error tipográfico. Le pides que formatee algo de JSON. Le pides que renombre una variable.
Fable piensa durante 12 segundos, quema 8,000 tokens de razonamiento, devuelve la respuesta.
Costo: $0.60 por una tarea que Haiku habría resuelto por $0.02.
Estás pagando tarifas de cirujano por charlas triviales.
Fable es un arquitecto.
No un compañero de piso.
En el momento en que interiorizas eso, todo cambia.

El Sistema 10-80-10 (El marco exacto que usan los propios ingenieros de Anthropic)
Cada proyecto de Fable tiene tres fases.
La mayoría de la gente ejecuta las tres en Fable.
El movimiento inteligente es ejecutar solo dos de ellas en Fable.
El primer 10% — Planificación
Aquí es donde Fable justifica su precio.
Antes de comenzar cualquier proyecto, usa Fable para definir:
→ La estructura y el enfoque → Los criterios de éxito → Las limitaciones y los casos extremos → Lo que podría salir mal
Piensa en construir una casa.
El error más caro es darle a los constructores un mal plano.
Primero, consigue la arquitectura correcta.
Fable es extraordinario en esto.
El 80% intermedio — Ejecución
Aquí es donde se queman la mayoría de los tokens.
El ir y venir. La iteración. Los bucles de implementación. El trabajo pesado de completar realmente las tareas.
Fable no necesita estar aquí.
Cambia a Opus 4.8 para el trabajo estándar. Usa Haiku para tareas ligeras. Usa Codex o GPT-5.5 para la ejecución mecánica.
Obtienes la calidad de arquitectura de Fable sin pagar los precios de Fable por cada token de ejecución.
El último 10% — Revisión
Trae a Fable de vuelta.
Pídele que revise el resultado contra el plan original:
→ ¿Coincide el resultado con la arquitectura?
→ ¿Hay lagunas o casos extremos pasados por alto?
→ ¿Necesita algo arreglarse antes de enviarlo?
Debido a que Fable revisa un resultado terminado en lugar de generarlo desde cero, usa una fracción de los tokens que habría quemado haciendo toda la tarea.
[INSERT IMAGE 2 — PROMPT BELOW]

La tabla de enrutamiento de CLAUDE.md (Un archivo que lo controla todo)
Este es el mayor descubrimiento.
Mantén una única tabla de enrutamiento en tu CLAUDE.md.
Deja que Fable actúe como el orquestador que la lee y despacha el trabajo al modelo correcto automáticamente.
Aquí está la tabla de enrutamiento exacta que uso:
1## Tabla de Enrutamiento de Modelos23### Fable 5 (solo orquestador)4Usar para: planificación, arquitectura, revisión de resultados finales5Nunca usar para: tareas mecánicas, generación masiva, código repetitivo6Nivel de esfuerzo: alto (nunca xalto — es un horno con peores resultados)78### Opus 4.8 (ejecutor de razonamiento profundo)9Usar para: depuración compleja, razonamiento de múltiples pasos, cualquier cosa10 que necesite pensamiento real pero no sea arquitectura11Nivel de costo: estándar1213### Sonnet 5 (ejecutor de trabajo mecánico)14Usar para: generación de código, refactorización, trabajo de funciones estándar15Nivel de costo: barato1617### Codex / GPT-5.5 (ejecutor par)18Usar para: tareas de implementación, verificación de UI/UX,19 trabajo de ejecución bien especificado20Nota: Fable puede aprender a dirigir Codex — enséñale cómo una vez21Nivel de costo: a menudo gratis en el plan Codex2223### Haiku (ejecutor masivo)24Usar para: formateo, lint, ediciones simples, código repetitivo,25 refactorizaciones de renombre, andamiaje de pruebas26Nunca generar más subagentes desde Haiku27Nivel de costo: más barato2829### Kimi / GLM-5.2 (ejecutor de contexto largo)30Usar para: leer archivos enormes, análisis de repositorio a largo plazo31 para que Fable nunca gaste tokens en ello32Nivel de costo: muy barato3334### DeepSeek / Qwen (trabajo pesado súper barato)35Usar para: código repetitivo, escritura de pruebas, limpieza de datos,36 traducciones, borradores de documentación, generación masiva37Nivel de costo: casi gratis
Fable nunca toca el trabajo barato directamente.
Planifica, delega al nivel correcto, luego verifica los resultados contra el plan.
El cerebro caro solo gasta tokens decidiendo.
Ese único archivo es la razón por la que mi factura BAJÓ mientras mi producción SUBIÓ.

La configuración exacta de CLAUDE.md que ahorró el 70% de mis tokens
Aquí está la sección de orquestación completa que agregué a mi CLAUDE.md:
1## Flujo de Trabajo de Orquestación23Tú (Fable) eres el orquestador. Planifica, descompón, sintetiza.4NO ejecutes tareas mecánicas tú mismo.56### Reglas de delegación:7- Fases con mucho razonamiento → razonador-profundo (Opus 4.8)8- Trabajo mecánico → trabajador-rápido (Sonnet/Haiku)9- Análisis de código base / archivos enormes → Kimi (contexto largo)10- Código repetitivo / masivo → DeepSeek o Qwen11- Revisión por pares desde una perspectiva diferente → Codex1213### Codex es un par, no un revisor:14Trata a Codex como un ingeniero senior crack desde una perspectiva15diferente. Para decisiones de alto riesgo: asigna Opus + Codex16al mismo problema en paralelo, sintetiza lo mejor de17ambos sin mostrarle a ninguno la respuesta del otro.1819### Disciplina de contexto:20Mantén tu propio contexto ligero.21Nunca vuelvas a leer archivos que ya hayas procesado.22Resume las salidas de las herramientas antes de retroalimentarlas al contexto.23Pide a los modelos que devuelvan conclusiones concisas sobre las que puedas actuar.2425### Niveles de esfuerzo:26- Planificación y arquitectura: esfuerzo alto27- Pasadas de revisión: esfuerzo medio28- Nunca uses xalto/máx por defecto — cuesta más, a menudo es peor
Ahora incita a Fable como un líder técnico:
1Objetivo: [lo que quieres]2Contexto: [archivos, limitaciones, de lo que tienes miedo]34Eres el líder.5Delega el razonamiento al razonador-profundo (Opus).6Delega el trabajo pesado al trabajador-rápido (Sonnet/Haiku).7Usa Codex para problemas de perspectiva nueva.89Muéstrame tu plan primero, luego ejecuta.
Eso es todo.
Fable planifica. Todo lo demás ejecuta. La factura se mantiene plana.
Instalando el plugin de Codex — el movimiento multiplicador
Esta es la configuración que la mayoría de la gente omite.
Codex + Fable juntos es 10 veces mejor que Fable solo.
Fable hace la arquitectura. Codex ejecuta con calidad GPT-5.5. Apenas tocas tus límites de Claude.
Configuración en menos de 5 minutos:
Paso 1: Instala Codex CLI en tu máquina
1npm install -g @openai/codex
Paso 2: Añade el plugin dentro de Claude Code
1/plugin marketplace add openai/codex-plugin-cc2/plugin install codex@openai-codex3/codex:setup
Paso 3: Crea dos subagentes en Claude Code
1/agents23→ razonador-profundo4 Modelo: Opus 4.85 Instrucciones: "Usar para fases con mucho razonamiento, arquitectura,6 depuración de problemas complejos. Piensa a fondo, devuelve una conclusión7 concisa sobre la que el orquestador pueda actuar."89→ trabajador-rápido10 Modelo: Sonnet 511 Instrucciones: "Usar para tareas mecánicas, código repetitivo, pruebas,12 formateo, ediciones simples. Ejecuta de manera eficiente."
Paso 4: Pide a Fable que escriba un SKILL.md para Codex
1Escribe un SKILL.md que le enseñe a Codex exactamente cómo:2- Leer y ejecutar planes de implementación3- Ejecutar pruebas e informar los resultados de vuelta a ti4- Manejar la estructura de archivos específica en este proyecto
Haz que Codex no necesite ninguna ayuda en el trabajo mecánico.
Fable escribe la habilidad una vez.
Codex la lee en cada ejecución futura.
Tu resultado de Codex mejora inmediatamente 10 veces.

El comando /loop (La forma más poderosa de usar Fable ahora mismo)
La mayoría de la gente todavía incita a la antigua usanza.
Tú incitas → Fable responde → tú revisas → vuelves a incitar → repites.
En ese modelo, tú eres el bucle.
Verificas manualmente cada paso, cada corrección, cada seguimiento.
Los bucles te eliminan a ti como el cuello de botella.
Cómo funciona:
Le das un objetivo a Fable por adelantado.
Él inicia subagentes para trabajar hacia ese objetivo.
Los agentes se incitan a sí mismos e informan cuando terminan.
Los dos comandos:
1/goal — define la tarea y el estado final23Estructura:4/goal [tarea] hasta [estado final medible] sin [restricciones]56Ejemplo:7/goal refactorizar el módulo de autenticación hasta que las 47 pruebas pasen8sin tocar el servicio de pago ni el esquema de la base de datos
1/loop — ejecuta una incitación en un horario automáticamente23Estructura:4/loop [tu incitación] --intervalo 30m --expira 8h56Ejemplo:7/loop ejecutar verificación de seguridad en todos los endpoints de la API8--intervalo 24h --expira 7d
La combinación:
1/goal reconstruir el componente del panel hasta que la puntuación2de Lighthouse supere 90 en móvil sin romper las pruebas existentes34/loop ejecutar /goal de arriba --intervalo 6h --expira 48h
Fable diseña el bucle. Los modelos más baratos ejecutan el 80% de la ejecución dentro del bucle. Fable solo regresa cuando el bucle se cierra o encuentra un bloqueador.
Te despiertas con una tarea terminada.
[INSERT IMAGE 5 — PROMPT BELOW]
7 incitaciones para ejecutar en Fable ahora mismo
Estas son las cosas de mayor apalancamiento para hacer con Fable antes de usarlo para cualquier otra cosa.
No es codificación por vibra.
No es enviar funciones.
Es afilar cada sistema que ya tienes.
1. Encuentra lo que realmente vale la pena ejecutar en Fable
1Eres Fable 5, el modelo más capaz disponible.23Mira a través de mis proyectos, documentos y memoria.45Enumera las 5 tareas principales que realmente valen la pena ejecutar en ti.67Clasifícalas con una razón de una línea cada una.89No hagas el trabajo todavía.
2. Rediseña cómo construyes antes de construir cualquier cosa
1Quiero que audites y rediseñes completamente mi flujo de trabajo de codificación.23Así es como trabajo actualmente: [describe tu proceso]45Mi objetivo es: [lo que estás tratando de enviar]67Revisa, audita, afila y mejora mi sistema.89No escribas código. Rediseña la fábrica antes de ponerla en marcha.
3. Planifica el gran proyecto — no lo construyas todavía
1Quiero planificar: [describe el proyecto]23No construyas todavía.45Presenta el plan completo: fases, decisiones clave, riesgos6y preguntas abiertas.78Señala cualquier cosa que pueda hundirlo.910Haz que el plan sea lo suficientemente claro como para que Sonnet o Codex11puedan ejecutarlo paso a paso sin hacerme preguntas.
4. Encuentra todo lo que está mal antes de enviar
1Estoy a punto de enviar este proyecto.23Encuentra todo lo que está mal primero.45Lee todo el código base.67Busca errores reales, casos extremos rotos y cualquier cosa que8se rompa frente a un usuario.910Enumera cada problema con: cómo reproducirlo y la solución.1112Mantén un estándar alto. Sé despiadado.
5. Reconstruye tu CLAUDE.md desde cero
1Lee mi CLAUDE.md actual.23Fue escrito para modelos más antiguos y está inflado.45Las instrucciones más cortas y limpias funcionan mejor y cuestan menos6en Fable.78Reescríbelo:9- Elimina las instrucciones que Fable ya no necesita10- Aprieta cada flujo de trabajo11- Añade la tabla de enrutamiento de modelos de nuestra conversación12- Mantén cada sección por debajo de 5 líneas cuando sea posible1314Fable descubrirá el resto por sí mismo.
6. Obtén consejos de negocio de todo lo que sabe sobre ti
1Eres mi asesor de negocios.23Lee mi documento de plan, herramientas conectadas y memoria.45Escribe una evaluación de una página de mi negocio e incluye:6- Las 3 cosas principales en las que centrarme para los próximos 3 meses7- Qué dejar y por qué8- Una cosa a la que probablemente soy ciego
7. Barrido de seguridad en piloto automático
1/loop ejecutar una verificación de seguridad en todos mis endpoints de API.23Busca: claves expuestas, autenticación faltante, brechas en límites de tasa,4vectores de inyección y cualquier cosa que un usuario malintencionado pueda explotar.56Informa solo problemas reales con clasificaciones de gravedad.78--intervalo 24h --expira 7d

Niveles de esfuerzo — la configuración más malinterpretada
La mayoría de la gente usa máx o xalto por defecto.
Esto está mal.
Esto es lo que realmente sucede en cada nivel:
→ Bajo: Rápido, barato, sorprendentemente capaz para tareas simples. Mucha gente reporta resultados increíbles aquí.
→ Medio: El punto óptimo. Fable en medio supera a Opus en extra alto. Usa este por defecto.
→ Alto: Usar para: depuración difícil, refactorizaciones de múltiples archivos, decisiones de arquitectura. Poder de razonamiento real.
→ Xalto / Máx: Horno de tokens. A menudo produce resultados PEORES que Alto. Resérvalo para los problemas más difíciles que hayas enfrentado.
La regla: comienza en Medio. Pasa a Alto solo si la calidad realmente se queda corta. Nunca uses máx por defecto.
Una configuración más que mata los presupuestos:
Pensamiento Extendido — déjalo apagado por defecto.
Actívalo solo para problemas que realmente lo requieran. Dejarlo encendido permanentemente es como dejar el motor encendido en la entrada de tu casa.
El truco /handoff — soluciona la hinchazón de la ventana de contexto
Las sesiones largas son un asesino silencioso.
Cada turno reenvía el historial completo de la conversación.
Una sesión de 200k tokens se convierte en la cosa más cara de tu factura.
La solución: abre nuevos chats con frecuencia.
Pero no quieres perder el contexto cuando lo haces.
Usa la habilidad /handoff:
1Dame una incitación que pueda usar para reiniciar esta sesión en2un nuevo chat sin perder nada de nuestro contexto.34Incluye:5- Lo que decidimos6- Lo que construimos7- Cuáles son los siguientes pasos8- Cualquier restricción importante que deba recordar910Haz que tenga menos de 500 tokens para que la nueva sesión comience ligera.
Copia ese resultado.
Abre un nuevo chat.
Pégalo.
Continúa exactamente donde lo dejaste con una fracción del costo de contexto.
Sesión nueva cada 30–60 minutos = ahorro masivo de tokens.

Los 4 errores caros que debes evitar
Error 1: Fable es ahora el predeterminado.
Cuando abres Claude Code, usa Fable automáticamente.
Verifica el selector de modelo antes de cada sesión.
Este único hábito me ha pillado ejecutando Fable accidentalmente en chats normales más veces de las que quiero admitir.
Error 2: Sin límite de gasto.
El 7 de julio, Fable se mueve fuera de las suscripciones estándar.
Añade una tarjeta de crédito y establece un límite mensual duro inmediatamente.
Configuración → Uso → Ajustar Límite.
Fable quema tokens rápidamente en ejecuciones autónomas y sesiones largas.
Sin un límite duro, una ejecución de agente nocturna puede acumular una factura antes de que te despiertes.
Alguien ya fue facturado con $960 en una sola incitación.
Establece el límite esta noche.
Error 3: Pedirle que explique su razonamiento.
Esa única solicitud puede activar clasificadores y tu trabajo es manejado silenciosamente por un modelo más débil mientras piensas que todavía estás en Fable.
Omite las solicitudes de "por qué". Juzga la calidad del resultado, no el proceso.
Error 4: Darle incitaciones pequeñas gota a gota.
Fable mantiene horas de contexto en su cabeza.
Dale todo el asunto desordenado de una vez.
Contexto completo. Las limitaciones. De lo que realmente tienes miedo.
Le di a Fable una refactorización que había estado temiendo durante semanas en un solo resumen. Volvió hecha.
Darle incitaciones gota a gota desperdicia lo único en lo que es mejor.

La comparación de costos de modelos — sabe lo que realmente estás pagando
Antes de enrutar cualquier cosa, conoce el precio de cada modelo:
Modelo Entrada ($/M) Salida ($/M) Mejor para
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
Fable 5 ~$15 ~$75 Planificación, revisión
Opus 4.8 ~$5 ~$25 Razonamiento profundo
Sonnet 5 ~$3 ~$15 Ejecución estándar
Kimi K2.7 ~$0.95 ~$4.00 Codificación masiva, contexto largo
GLM-5.2 ~$1.40 ~$4.40 Trabajo a escala de repositorio
DeepSeek v4 ~$0.28 ~$1.10 Trabajo pesado súper barato
Haiku 4.5 ~$1 ~$5 Limpieza, formateo
Local (Qwen/Llama) $0 $0 Autocompletado, código repetitivo
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
La brecha entre Fable y DeepSeek: 53x en entrada. 68x en salida.
El mismo agente de refactorización de 30 pasos: → Todo Fable: ~$25 por ejecución → Plan de Fable + ejecución de Kimi: ~$1.40 por ejecución → Mismo código enviado. Mismas pruebas pasando.
Enrutar no se trata de ser barato.
Se trata de ser preciso.

El sistema completo — cómo se ve en funcionamiento
Antes de este sistema:
→ Todo se enruta a Fable
→ La factura se dispara cada vez que envías algo
→ Los límites de uso se alcanzan a mitad de sesión
→ Racionas las incitaciones como un viajero con poco presupuesto
Después de este sistema:
→ Fable maneja el 10% que realmente lo necesita
→ Los modelos baratos manejan el 80% de la ejecución
→ /loop se ejecuta durante la noche sin tocar tu límite
→ Envías más, gastas menos, nunca alcanzas un límite de tasa
El resumen de tres líneas:
Fable planifica. Otros ejecutan. Fable revisa.
Esa única regla reduce tu factura en más del 50% antes de que cambies cualquier otra cosa.
El resto es optimización.
Ejecuta esto esta noche
Pon esto en Fable ahora mismo:
Lee mi CLAUDE.md actual y todos mis proyectos activos.
Tu trabajo: configurar el sistema de enrutamiento 10-80-10 para mi flujo de trabajo.
Crea:
- CLAUDE.md actualizado con la tabla de enrutamiento de modelos completa
- Una lista de mis tareas activas actuales clasificadas por qué modelo debería manejar cada una
- Tres incitaciones /goal que pueda ejecutar esta noche en modelos más baratos basadas en lo que ves en mis proyectos
No ejecutes nada. Solo planifica y enruta.
Fable hace la planificación.
Te despiertas con un sistema de enrutamiento completo.
Y una factura que no te da un infarto.
Si esto te ahorró dinero:
→ Republica para que otros constructores dejen de quemar sus presupuestos
→ Sigue a @sairahul1 para más sistemas como este
→ Marca esto como favorito — las configuraciones de CLAUDE.md funcionan, pégalas esta noche
Suscríbete a theaibuilders.co para más artículos interesantes como este
Escribo sobre IA, construcción de productos y sistemas que funcionan mientras duermes.
Recursos:
→ Enrutador de tokens Entelligence: entelligence.ai/blogs/entelligence-token-router
→ Flujo de trabajo de tres modelos que redujo las facturas un 80%: entelligence.ai/blogs/our-three-model-coding-workflow-that-cut-our-ai-bill-80
→ Claude Code: claude.ai/code
→ Codex CLI: npmjs.com/package/@openai/codex





