Optimización de costos de Claude Fable 5: La guía de enrutamiento 10-80-10

Fable 5 es el mejor modelo de IA que he usado.

También es increíblemente caro.

En mis primeras horas de prueba, casi agoté todo mi límite de uso.

Y ni siquiera estaba haciendo nada loco.

Fable cuesta el doble que Opus 4.8.

Y como es tan inteligente, en realidad piensa de más — ejecuta bucles y quema tokens de formas que ningún modelo anterior de Claude ha hecho.

La mayoría de la gente lo está usando completamente mal.

Aquí está el sistema exacto que construí para reducir mis costos de tokens de Fable en más del 50%.

Sin nuevas herramientas. Sin menos resultados. Solo un enrutamiento más inteligente.

El error que todos cometen el primer día

Abres Claude Code.

Fable es ahora el modelo predeterminado.

Empiezas a chatear.

Le pides que corrija un error tipográfico. Le pides que formatee algo de JSON. Le pides que renombre una variable.

Fable piensa durante 12 segundos, quema 8,000 tokens de razonamiento, devuelve la respuesta.

Costo: $0.60 por una tarea que Haiku habría resuelto por $0.02.

Estás pagando tarifas de cirujano por charlas triviales.

Fable es un arquitecto.

No un compañero de cuarto.

En el momento en que internalizas eso, todo cambia.

El Sistema 10-80-10 (El marco exacto que los propios ingenieros de Anthropic usan)

Cada proyecto de Fable tiene tres fases.

La mayoría de la gente ejecuta las tres en Fable.

La jugada inteligente es ejecutar solo dos de ellas en Fable.

El primer 10% — Planificación

Aquí es donde Fable justifica su precio.

Antes de que comience cualquier proyecto, usa Fable para definir:

→ La estructura y el enfoque → Los criterios de éxito → Las restricciones y los casos límite → Lo que podría salir mal

Piensa en construir una casa.

El error más caro es darle a los constructores un mal plano.

Primero, consigue la arquitectura correcta.

Fable es extraordinario en esto.

El 80% intermedio — Ejecución

Aquí es donde se queman la mayoría de los tokens.

El ir y venir. La iteración. Los bucles de implementación. El trabajo pesado de completar las tareas.

Fable no necesita estar aquí.

Cambia a Opus 4.8 para el trabajo estándar. Usa Haiku para tareas ligeras. Usa Codex o GPT-5.5 para la ejecución mecánica.

Obtienes la arquitectura de calidad de Fable sin pagar los precios de Fable por cada token de ejecución.

El último 10% — Revisión

Trae a Fable de vuelta.

Pídele que revise el resultado contra el plan original:

→ ¿El resultado coincide con la arquitectura?

→ ¿Hay vacíos o casos límite que se pasaron por alto?

→ ¿Hay algo que necesite arreglarse antes de enviarlo?

Debido a que Fable revisa un resultado terminado en lugar de generarlo desde cero, usa una fracción de los tokens que habría quemado haciendo toda la tarea.

[INSERT IMAGE 2 — PROMPT BELOW]

La tabla de enrutamiento CLAUDE.md (Un archivo que lo controla todo)

Este es el mayor descubrimiento.

Mantén una única tabla de enrutamiento en tu CLAUDE.md.

Deja que Fable actúe como el orquestador que la lee y envía el trabajo al modelo correcto automáticamente.

Aquí está la tabla de enrutamiento exacta que uso:

markdown

1## Tabla de Enrutamiento de Modelos
2
3### Fable 5 (solo orquestador)
4Usar para: planificación, arquitectura, revisión del resultado final
5Nunca usar para: tareas mecánicas, generación masiva, código repetitivo
6Nivel de esfuerzo: alto (nunca xalto — es un horno con peores resultados)
7
8### Opus 4.8 (ejecutor de razonamiento profundo)
9Usar para: depuración compleja, razonamiento de varios pasos, cualquier cosa
10         que necesite pensamiento real pero no sea arquitectura
11Nivel de costo: estándar
12
13### Sonnet 5 (ejecutor de trabajo mecánico)
14Usar para: generación de código, refactorización, trabajo de funciones estándar
15Nivel de costo: barato
16
17### Codex / GPT-5.5 (ejecutor par)
18Usar para: tareas de implementación, verificación de UI/UX,
19         trabajo de ejecución bien especificado
20Nota: Fable puede aprender a dirigir a Codex — enséñale cómo una vez
21Nivel de costo: a menudo gratis en el plan Codex
22
23### Haiku (ejecutor masivo)
24Usar para: formateo, lint, ediciones simples, código repetitivo,
25         refactorizaciones de renombre, andamios de pruebas
26Nunca generar más subagentes desde Haiku
27Nivel de costo: más barato
28
29### Kimi / GLM-5.2 (ejecutor de contexto largo)
30Usar para: leer archivos enormes, análisis de repositorio de largo alcance
31         para que Fable nunca gaste tokens en ello
32Nivel de costo: muy barato
33
34### DeepSeek / Qwen (trabajo pesado súper barato)
35Usar para: código repetitivo, escritura de pruebas, limpieza de datos,
36         traducciones, borradores de documentación, generación masiva
37Nivel de costo: casi gratis

Fable nunca toca el trabajo barato directamente.

Planifica, delega al nivel correcto, luego verifica los resultados contra el plan.

El cerebro caro solo gasta tokens decidiendo.

Ese único archivo es la razón por la que mi factura BAJÓ mientras mi producción SUBIÓ.

La configuración exacta de CLAUDE.md que ahorró el 70% de mis tokens

Aquí está la sección de orquestación completa que puse en mi CLAUDE.md:

markdown

1## Flujo de Trabajo de Orquestación
2
3Tú (Fable) eres el orquestador. Planifica, descompón, sintetiza.
4NO ejecutes tareas mecánicas tú mismo.
5
6### Reglas de delegación:
7- Fases con mucho razonamiento → razonador-profundo (Opus 4.8)
8- Trabajo mecánico → trabajador-rápido (Sonnet/Haiku)
9- Análisis de código base / archivos enormes → Kimi (contexto largo)
10- Código repetitivo / masivo → DeepSeek o Qwen
11- Revisión por pares desde una perspectiva diferente → Codex
12
13### Codex es un par, no un revisor:
14Trata a Codex como un ingeniero sénior crack desde una perspectiva
15diferente. Para decisiones de alto riesgo: asigna a Opus + Codex
16el mismo problema en paralelo, sintetiza lo mejor de
17ambos sin mostrarle a ninguno la respuesta del otro.
18
19### Disciplina de contexto:
20Mantén tu propio contexto ligero.
21Nunca vuelvas a leer archivos que ya hayas procesado.
22Resume los resultados de las herramientas antes de retroalimentarlos al contexto.
23Pide a los modelos que devuelvan conclusiones concisas sobre las que puedas actuar.
24
25### Niveles de esfuerzo:
26- Planificación y arquitectura: esfuerzo alto
27- Pasadas de revisión: esfuerzo medio
28- Nunca uses xalto/máx por defecto — cuesta más, a menudo es peor

Ahora, indícale a Fable como un líder técnico:

markdown

1Objetivo: [lo que quieres]
2Contexto: [archivos, restricciones, de lo que tienes miedo]
3
4Eres el líder.
5Delega el razonamiento a razonador-profundo (Opus).
6Delega el trabajo pesado a trabajador-rápido (Sonnet/Haiku).
7Usa Codex para problemas de perspectiva nueva.
8
9Muéstrame tu plan primero, luego ejecuta.

Eso es todo.

Fable planifica. Todo lo demás ejecuta. La factura se mantiene plana.

Instalando el plugin de Codex — el movimiento multiplicador

Esta es la configuración que la mayoría de la gente se salta.

Codex + Fable juntos es 10 veces mejor que Fable solo.

Fable hace la arquitectura. Codex ejecuta con calidad GPT-5.5. Apenas tocas tus límites de Claude.

Configuración en menos de 5 minutos:

Paso 1: Instala Codex CLI en tu máquina

bash

1npm install -g @openai/codex

Paso 2: Añade el plugin dentro de Claude Code

text

1/plugin marketplace add openai/codex-plugin-cc
2/plugin install codex@openai-codex
3/codex:setup

Paso 3: Crea dos subagentes en Claude Code

text

1/agents
2
3→ razonador-profundo
4  Modelo: Opus 4.8
5  Instrucciones: "Usar para fases con mucho razonamiento, arquitectura,
6  depuración de problemas complejos. Piensa a fondo, devuelve una
7  conclusión concisa sobre la que el orquestador pueda actuar."
8
9→ trabajador-rápido
10  Modelo: Sonnet 5
11  Instrucciones: "Usar para tareas mecánicas, código repetitivo, pruebas,
12  formateo, ediciones simples. Ejecuta de manera eficiente."

Paso 4: Pídele a Fable que escriba un SKILL.md para Codex

text

1Escribe un SKILL.md que le enseñe a Codex exactamente cómo:
2- Leer y ejecutar planes de implementación
3- Ejecutar pruebas e informar los resultados de vuelta a ti
4- Manejar la estructura de archivos específica en este proyecto

Haz que Codex necesite cero supervisión en el trabajo mecánico.

Fable escribe la habilidad una vez.

Codex la lee en cada ejecución futura.

Tu resultado de Codex mejora inmediatamente 10 veces.

El comando /loop (La forma más poderosa de usar Fable ahora mismo)

La mayoría de la gente todavía usa el método antiguo de indicaciones.

Tú indicas → Fable responde → tú revisas → tú vuelves a indicar → repite.

En ese modelo, tú eres el bucle.

Verificas manualmente cada paso, cada corrección, cada seguimiento.

Los bucles te eliminan a ti como el cuello de botella.

Cómo funciona:

Le das un objetivo a Fable desde el principio.

Él crea subagentes para trabajar hacia ese objetivo.

Los agentes se indican a sí mismos e informan cuando terminan.

Los dos comandos:

text

1/goal — define la tarea y el estado final
2
3Estructura:
4/goal [tarea] hasta [estado final medible] sin [restricciones]
5
6Ejemplo:
7/goal refactorizar el módulo de autenticación hasta que las 47 pruebas pasen
8sin tocar el servicio de pagos ni el esquema de la base de datos

text

1/loop — ejecuta una indicación en un horario automáticamente
2
3Estructura:
4/loop [tu indicación] --intervalo 30m --expira 8h
5
6Ejemplo:
7/loop ejecutar verificación de seguridad en todos los endpoints de la API
8--intervalo 24h --expira 7d

La combinación:

text

1/goal reconstruir el componente del dashboard hasta que la puntuación
2de Lighthouse supere 90 en móvil sin romper las pruebas existentes
3
4/loop ejecutar /goal de arriba --intervalo 6h --expira 48h

Fable diseña el bucle. Los modelos más baratos ejecutan el 80% de la ejecución dentro del bucle. Fable solo regresa cuando el bucle se cierra o encuentra un bloqueo.

Te despiertas con una tarea terminada.

[INSERT IMAGE 5 — PROMPT BELOW]

7 indicaciones para ejecutar en Fable ahora mismo

Estas son las cosas de mayor apalancamiento para hacer con Fable antes de usarlo para cualquier otra cosa.

No es codificación por vibra.

No es enviar funciones.

Es afilar cada sistema que ya tienes.

1. Encuentra lo que realmente vale la pena ejecutar en Fable

text

1Eres Fable 5, el modelo más capaz disponible.
2
3Revisa mis proyectos, documentos y memoria.
4
5Enumera las 5 tareas principales que realmente valgan la pena ejecutar en ti.
6
7Clasifícalas con una razón de una línea cada una.
8
9No hagas el trabajo todavía.

2. Rediseña cómo construyes antes de construir cualquier cosa

text

1Quiero que audites y rediseñes completamente mi flujo de trabajo de codificación.
2
3Así es como trabajo actualmente: [describe tu proceso]
4
5Mi objetivo es: [lo que estás tratando de enviar]
6
7Revisa, audita, afila y mejora mi sistema.
8
9No escribas código. Rediseña la fábrica antes de que la pongamos en marcha.

3. Planifica el gran proyecto — no lo construyas todavía

text

1Quiero planificar: [describe el proyecto]
2
3No construyas todavía.
4
5Presenta el plan completo: fases, decisiones clave, riesgos
6y preguntas abiertas.
7
8Señala cualquier cosa que pueda hundirlo.
9
10Haz que el plan sea lo suficientemente claro como para que Sonnet o Codex puedan
11ejecutarlo paso a paso sin hacerme preguntas.

4. Encuentra todo lo que está mal antes de enviar

text

1Estoy a punto de enviar este proyecto.
2
3Primero, encuentra todo lo que está mal.
4
5Lee todo el código base.
6
7Busca errores reales, casos límite rotos y cualquier cosa que
8se rompa frente a un usuario.
9
10Enumera cada problema con: cómo reproducirlo y la solución.
11
12Mantén un estándar alto. Sé implacable.

5. Reconstruye tu CLAUDE.md desde cero

text

1Lee mi CLAUDE.md actual.
2
3Fue escrito para modelos más antiguos y está inflado.
4
5Las instrucciones más cortas y limpias funcionan mejor y cuestan menos
6en Fable.
7
8Reescríbelo:
9- Elimina las instrucciones que Fable ya no necesita
10- Ajusta cada flujo de trabajo
11- Añade la tabla de enrutamiento de modelos de nuestra conversación
12- Mantén cada sección en menos de 5 líneas cuando sea posible
13
14Fable descubrirá el resto por sí mismo.

6. Obtén consejos de negocio de todo lo que sabe sobre ti

text

1Eres mi asesor de negocios.
2
3Lee mi documento de plan, herramientas conectadas y memoria.
4
5Escribe una evaluación de una página de mi negocio y:
6- Las 3 cosas principales en las que enfocarme para los próximos 3 meses
7- Qué dejar y por qué
8- Una cosa a la que probablemente estoy ciego

7. Barrido de seguridad en piloto automático

text

1/loop ejecutar una verificación de seguridad en todos mis endpoints de la API.
2
3Busca: claves expuestas, autenticación faltante, brechas en límites de tasa,
4vectores de inyección y cualquier cosa que un usuario malintencionado pueda explotar.
5
6Informa solo problemas reales con clasificaciones de gravedad.
7
8--intervalo 24h --expira 7d

Niveles de esfuerzo — la configuración más malinterpretada

La mayoría de la gente usa máx o xalto por defecto.

Esto está mal.

Esto es lo que realmente sucede en cada nivel:

→ Bajo: Rápido, barato, sorprendentemente capaz para tareas simples. Mucha gente reporta resultados increíbles aquí.

→ Medio: El punto ideal. Fable en medio supera a Opus en extra alto. Usa esto por defecto.

→ Alto: Usar para: depuración difícil, refactorizaciones de múltiples archivos, decisiones de arquitectura. Poder de razonamiento real.

→ xalto / máx: Horno de tokens. A menudo produce resultados PEORES que Alto. Reserva para los problemas más difíciles que hayas enfrentado.

La regla: empieza en Medio. Pasa a Alto solo si la calidad realmente se queda corta. Nunca uses máx por defecto.

Una configuración más que mata los presupuestos:

Pensamiento Extendido — déjalo desactivado por defecto.

Actívalo solo para problemas que realmente lo requieran. Dejarlo activado permanentemente es como dejar el motor encendido en la entrada de tu casa.

El truco /handoff — soluciona la hinchazón del contexto de la ventana

Las sesiones largas son un asesino silencioso.

Cada turno reenvía el historial completo de la conversación.

Una sesión de 200k tokens se convierte en lo más caro de tu factura.

La solución: abre nuevos chats con frecuencia.

Pero no quieres perder el contexto cuando lo haces.

Usa la habilidad /handoff:

text

1Dame una indicación que pueda usar para reiniciar esta sesión en
2un nuevo chat sin perder nada de nuestro contexto.
3
4Incluye:
5- Lo que decidimos
6- Lo que construimos
7- Cuáles son los siguientes pasos
8- Cualquier restricción importante que deba recordar
9
10Haz que tenga menos de 500 tokens para que la nueva sesión comience ligera.

Copia ese resultado.

Abre un nuevo chat.

Pégalo.

Continúa exactamente donde lo dejaste a una fracción del costo de contexto.

Sesión nueva cada 30–60 minutos = ahorro masivo de tokens.

Los 4 errores caros que debes evitar

Error 1: Fable es ahora el predeterminado.

Cuando abres Claude Code, usa automáticamente Fable.

Verifica el selector de modelo antes de cada sesión.

Este único hábito me ha pillado ejecutando Fable accidentalmente en chats normales más veces de las que quiero admitir.

Error 2: Sin límite de gasto.

El 7 de julio, Fable se mueve fuera de las suscripciones estándar.

Añade una tarjeta de crédito y establece un límite mensual duro de inmediato.

Configuración → Uso → Ajustar Límite.

Fable quema tokens rápido en ejecuciones autónomas y sesiones largas.

Sin un límite duro, una ejecución de agente nocturna puede acumular una factura antes de que te despiertes.

Alguien ya recibió una factura de $960 por una sola indicación.

Establece el límite esta noche.

Error 3: Pedirle que explique su razonamiento.

Esa única solicitud puede activar clasificadores y tu trabajo es manejado silenciosamente por un modelo más débil mientras piensas que todavía estás en Fable.

Omite las solicitudes de "por qué". Juzga la calidad del resultado, no el proceso.

Error 4: Darle indicaciones pequeñas de a poco.

Fable mantiene horas de contexto en su cabeza.

Dale todo el desastre de una vez.

Contexto completo. Las restricciones. De lo que realmente tienes miedo.

Le di a Fable una refactorización que había estado temiendo durante semanas en un solo mensaje breve. Regresó hecha.

Darle indicaciones pequeñas de a poco desperdicia lo único en lo que es mejor.

La comparación de costos de modelos — sabe lo que realmente estás pagando

Antes de enrutar cualquier cosa, conoce el precio de cada modelo:

Modelo Entrada ($/M) Salida ($/M) Mejor para

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Fable 5 ~$15 ~$75 Planificación, revisión

Opus 4.8 ~$5 ~$25 Razonamiento profundo

Sonnet 5 ~$3 ~$15 Ejecución estándar

Kimi K2.7 ~$0.95 ~$4.00 Codificación masiva, contexto largo

GLM-5.2 ~$1.40 ~$4.40 Trabajo a escala de repositorio

DeepSeek v4 ~$0.28 ~$1.10 Trabajo pesado súper barato

Haiku 4.5 ~$1 ~$5 Limpieza, formateo

Local (Qwen/Llama) $0 $0 Autocompletado, código repetitivo

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

La brecha entre Fable y DeepSeek: 53x en entrada. 68x en salida.

El mismo agente de refactorización de 30 pasos: → Todo Fable: ~$25 por ejecución → Plan de Fable + ejecución de Kimi: ~$1.40 por ejecución → Mismo código enviado. Mismas pruebas pasando.

Enrutar no se trata de ser barato.

Se trata de ser preciso.

El sistema completo — cómo se ve en funcionamiento

Antes de este sistema:

→ Todo se enruta a Fable

→ La factura se dispara cada vez que envías

→ Los límites de uso se alcanzan a mitad de sesión

→ Racionas las indicaciones como un viajero con presupuesto ajustado

Después de este sistema:

→ Fable maneja el 10% que realmente lo necesita

→ Los modelos baratos manejan el 80% de la ejecución

→ /loop se ejecuta durante la noche sin tocar tu límite

→ Envías más, gastas menos, nunca alcanzas un límite de tasa

El resumen de tres líneas:

Fable planifica. Otros ejecutan. Fable revisa.

Esa única regla reduce tu factura en más del 50% antes de que cambies cualquier otra cosa.

El resto es optimización.

Ejecuta esto esta noche

Pon esto en Fable ahora mismo:

Lee mi CLAUDE.md actual y todos mis proyectos activos.

Tu trabajo: configurar el sistema de enrutamiento 10-80-10 para mi flujo de trabajo.

Crea:

CLAUDE.md actualizado con la tabla de enrutamiento de modelos completa
Una lista de mis tareas activas actuales clasificadas por qué modelo debería manejar cada una
Tres indicaciones /goal que pueda ejecutar esta noche en modelos más baratos basadas en lo que ves en mis proyectos

No ejecutes nada. Solo planifica y enruta.

Fable hace la planificación.

Te despiertas con un sistema de enrutamiento completo.

Y una factura que no te da un infarto.

Si esto te ahorró dinero:

→ Comparte para que otros creadores dejen de quemar sus presupuestos

→ Sigue a @sairahul1 para más sistemas como este

→ Marca esto como favorito — las configuraciones de CLAUDE.md funcionan, pégalas esta noche

Suscríbete a theaibuilders.co para más artículos interesantes como este

Escribo sobre IA, creación de productos y sistemas que funcionan mientras duermes.

Recursos:

→ Enrutador de tokens Entelligence: entelligence.ai/blogs/entelligence-token-router

→ Flujo de trabajo de tres modelos que redujo las facturas un 80%: entelligence.ai/blogs/our-three-model-coding-workflow-that-cut-our-ai-bill-80

→ Claude Code: claude.ai/code

→ Codex CLI: npmjs.com/package/@openai/codex

Cómo usar Claude Fable 5 sin quedar en bancarrota

El Sistema 10-80-10 (El marco exacto que los propios ingenieros de Anthropic usan)

La tabla de enrutamiento CLAUDE.md (Un archivo que lo controla todo)

La configuración exacta de CLAUDE.md que ahorró el 70% de mis tokens

Instalando el plugin de Codex — el movimiento multiplicador

El comando /loop (La forma más poderosa de usar Fable ahora mismo)

7 indicaciones para ejecutar en Fable ahora mismo

Niveles de esfuerzo — la configuración más malinterpretada

El truco /handoff — soluciona la hinchazón del contexto de la ventana

Los 4 errores caros que debes evitar

La comparación de costos de modelos — sabe lo que realmente estás pagando

El sistema completo — cómo se ve en funcionamiento

Ejecuta esto esta noche

Si esto te ahorró dinero:

Recursos:

Turn one viral article into a full content workflow

Artículos virales recientes

Investigación de Harvard: La relación entre los ingresos y la asignación del tiempo: 5 preguntas para mejorar los resultados

Guía de configuración de Claude Fable 5: Cómo obtener la máxima calidad al mínimo costo (configuración exacta incluida)

La guía definitiva sobre el mejor modelo de IA: Claude Fable 5 explicado de forma sencilla

Cómo convertir Sonnet 5 en Fable 5: 7 configuraciones de nivel experto basadas en entrevistas con Claude

Decir "consúltame cuando quieras" no es mentoría real: una guía para el acompañamiento profesional auténtico

La mayoría de las personas usan Claude de forma incorrecta

Cómo usar Claude Fable 5 sin quedar en bancarrota

El Sistema 10-80-10 (El marco exacto que los propios ingenieros de Anthropic usan)

La tabla de enrutamiento CLAUDE.md (Un archivo que lo controla todo)

La configuración exacta de CLAUDE.md que ahorró el 70% de mis tokens

Instalando el plugin de Codex — el movimiento multiplicador

El comando /loop (La forma más poderosa de usar Fable ahora mismo)

7 indicaciones para ejecutar en Fable ahora mismo

Niveles de esfuerzo — la configuración más malinterpretada

El truco /handoff — soluciona la hinchazón del contexto de la ventana

Los 4 errores caros que debes evitar

La comparación de costos de modelos — sabe lo que realmente estás pagando

El sistema completo — cómo se ve en funcionamiento

Ejecuta esto esta noche

Si esto te ahorró dinero:

Recursos:

Turn one viral article into a full content workflow

Convierte tu Markdown en un artículo de 𝕏 impecable

Artículos virales recientes

Investigación de Harvard: La relación entre los ingresos y la asignación del tiempo: 5 preguntas para mejorar los resultados

Guía de configuración de Claude Fable 5: Cómo obtener la máxima calidad al mínimo costo (configuración exacta incluida)

La guía definitiva sobre el mejor modelo de IA: Claude Fable 5 explicado de forma sencilla

Cómo convertir Sonnet 5 en Fable 5: 7 configuraciones de nivel experto basadas en entrevistas con Claude

Decir "consúltame cuando quieras" no es mentoría real: una guía para el acompañamiento profesional auténtico

La mayoría de las personas usan Claude de forma incorrecta