Optimización de costes de Claude Fable 5: La guía de enrutamiento 10-80-10

Fable 5 es el mejor modelo de IA que he usado.

También es increíblemente caro.

En mis primeras horas de prueba, casi agoté todo mi límite de uso.

Y ni siquiera estaba haciendo nada loco.

Fable cuesta el doble que Opus 4.8.

Y como es tan inteligente, en realidad piensa demasiado — ejecutando bucles y quemando tokens de formas que ningún modelo anterior de Claude ha hecho.

La mayoría de la gente lo está usando completamente mal.

Aquí está el sistema exacto que construí para reducir mis costos de tokens de Fable en más del 50%.

Sin nuevas herramientas. Sin menos resultados. Solo un enrutamiento más inteligente.

El error que todos cometen el primer día

Abres Claude Code.

Fable es ahora el modelo predeterminado.

Empiezas a chatear.

Le pides que corrija un error tipográfico. Le pides que formatee algo de JSON. Le pides que renombre una variable.

Fable piensa durante 12 segundos, quema 8,000 tokens de razonamiento, devuelve la respuesta.

Costo: $0.60 por una tarea que Haiku habría resuelto por $0.02.

Estás pagando tarifas de cirujano por charlas triviales.

Fable es un arquitecto.

No un compañero de piso.

En el momento en que interiorizas eso, todo cambia.

El Sistema 10-80-10 (El marco exacto que usan los propios ingenieros de Anthropic)

Cada proyecto de Fable tiene tres fases.

La mayoría de la gente ejecuta las tres en Fable.

El movimiento inteligente es ejecutar solo dos de ellas en Fable.

El primer 10% — Planificación

Aquí es donde Fable justifica su precio.

Antes de comenzar cualquier proyecto, usa Fable para definir:

→ La estructura y el enfoque → Los criterios de éxito → Las limitaciones y los casos extremos → Lo que podría salir mal

Piensa en construir una casa.

El error más caro es darle a los constructores un mal plano.

Primero, consigue la arquitectura correcta.

Fable es extraordinario en esto.

El 80% intermedio — Ejecución

Aquí es donde se queman la mayoría de los tokens.

El ir y venir. La iteración. Los bucles de implementación. El trabajo pesado de completar realmente las tareas.

Fable no necesita estar aquí.

Cambia a Opus 4.8 para el trabajo estándar. Usa Haiku para tareas ligeras. Usa Codex o GPT-5.5 para la ejecución mecánica.

Obtienes la calidad de arquitectura de Fable sin pagar los precios de Fable por cada token de ejecución.

El último 10% — Revisión

Trae a Fable de vuelta.

Pídele que revise el resultado contra el plan original:

→ ¿Coincide el resultado con la arquitectura?

→ ¿Hay lagunas o casos extremos pasados por alto?

→ ¿Necesita algo arreglarse antes de enviarlo?

Debido a que Fable revisa un resultado terminado en lugar de generarlo desde cero, usa una fracción de los tokens que habría quemado haciendo toda la tarea.

[INSERT IMAGE 2 — PROMPT BELOW]

La tabla de enrutamiento de CLAUDE.md (Un archivo que lo controla todo)

Este es el mayor descubrimiento.

Mantén una única tabla de enrutamiento en tu CLAUDE.md.

Deja que Fable actúe como el orquestador que la lee y despacha el trabajo al modelo correcto automáticamente.

Aquí está la tabla de enrutamiento exacta que uso:

markdown

1## Tabla de Enrutamiento de Modelos
2
3### Fable 5 (solo orquestador)
4Usar para: planificación, arquitectura, revisión de resultados finales
5Nunca usar para: tareas mecánicas, generación masiva, código repetitivo
6Nivel de esfuerzo: alto (nunca xalto — es un horno con peores resultados)
7
8### Opus 4.8 (ejecutor de razonamiento profundo)
9Usar para: depuración compleja, razonamiento de múltiples pasos, cualquier cosa
10         que necesite pensamiento real pero no sea arquitectura
11Nivel de costo: estándar
12
13### Sonnet 5 (ejecutor de trabajo mecánico)
14Usar para: generación de código, refactorización, trabajo de funciones estándar
15Nivel de costo: barato
16
17### Codex / GPT-5.5 (ejecutor par)
18Usar para: tareas de implementación, verificación de UI/UX,
19         trabajo de ejecución bien especificado
20Nota: Fable puede aprender a dirigir Codex — enséñale cómo una vez
21Nivel de costo: a menudo gratis en el plan Codex
22
23### Haiku (ejecutor masivo)
24Usar para: formateo, lint, ediciones simples, código repetitivo,
25         refactorizaciones de renombre, andamiaje de pruebas
26Nunca generar más subagentes desde Haiku
27Nivel de costo: más barato
28
29### Kimi / GLM-5.2 (ejecutor de contexto largo)
30Usar para: leer archivos enormes, análisis de repositorio a largo plazo
31         para que Fable nunca gaste tokens en ello
32Nivel de costo: muy barato
33
34### DeepSeek / Qwen (trabajo pesado súper barato)
35Usar para: código repetitivo, escritura de pruebas, limpieza de datos,
36         traducciones, borradores de documentación, generación masiva
37Nivel de costo: casi gratis

Fable nunca toca el trabajo barato directamente.

Planifica, delega al nivel correcto, luego verifica los resultados contra el plan.

El cerebro caro solo gasta tokens decidiendo.

Ese único archivo es la razón por la que mi factura BAJÓ mientras mi producción SUBIÓ.

La configuración exacta de CLAUDE.md que ahorró el 70% de mis tokens

Aquí está la sección de orquestación completa que agregué a mi CLAUDE.md:

markdown

1## Flujo de Trabajo de Orquestación
2
3Tú (Fable) eres el orquestador. Planifica, descompón, sintetiza.
4NO ejecutes tareas mecánicas tú mismo.
5
6### Reglas de delegación:
7- Fases con mucho razonamiento → razonador-profundo (Opus 4.8)
8- Trabajo mecánico → trabajador-rápido (Sonnet/Haiku)
9- Análisis de código base / archivos enormes → Kimi (contexto largo)
10- Código repetitivo / masivo → DeepSeek o Qwen
11- Revisión por pares desde una perspectiva diferente → Codex
12
13### Codex es un par, no un revisor:
14Trata a Codex como un ingeniero senior crack desde una perspectiva
15diferente. Para decisiones de alto riesgo: asigna Opus + Codex
16al mismo problema en paralelo, sintetiza lo mejor de
17ambos sin mostrarle a ninguno la respuesta del otro.
18
19### Disciplina de contexto:
20Mantén tu propio contexto ligero.
21Nunca vuelvas a leer archivos que ya hayas procesado.
22Resume las salidas de las herramientas antes de retroalimentarlas al contexto.
23Pide a los modelos que devuelvan conclusiones concisas sobre las que puedas actuar.
24
25### Niveles de esfuerzo:
26- Planificación y arquitectura: esfuerzo alto
27- Pasadas de revisión: esfuerzo medio
28- Nunca uses xalto/máx por defecto — cuesta más, a menudo es peor

Ahora incita a Fable como un líder técnico:

markdown

1Objetivo: [lo que quieres]
2Contexto: [archivos, limitaciones, de lo que tienes miedo]
3
4Eres el líder.
5Delega el razonamiento al razonador-profundo (Opus).
6Delega el trabajo pesado al trabajador-rápido (Sonnet/Haiku).
7Usa Codex para problemas de perspectiva nueva.
8
9Muéstrame tu plan primero, luego ejecuta.

Eso es todo.

Fable planifica. Todo lo demás ejecuta. La factura se mantiene plana.

Instalando el plugin de Codex — el movimiento multiplicador

Esta es la configuración que la mayoría de la gente omite.

Codex + Fable juntos es 10 veces mejor que Fable solo.

Fable hace la arquitectura. Codex ejecuta con calidad GPT-5.5. Apenas tocas tus límites de Claude.

Configuración en menos de 5 minutos:

Paso 1: Instala Codex CLI en tu máquina

bash

1npm install -g @openai/codex

Paso 2: Añade el plugin dentro de Claude Code

text

1/plugin marketplace add openai/codex-plugin-cc
2/plugin install codex@openai-codex
3/codex:setup

Paso 3: Crea dos subagentes en Claude Code

text

1/agents
2
3→ razonador-profundo
4  Modelo: Opus 4.8
5  Instrucciones: "Usar para fases con mucho razonamiento, arquitectura,
6  depuración de problemas complejos. Piensa a fondo, devuelve una conclusión
7  concisa sobre la que el orquestador pueda actuar."
8
9→ trabajador-rápido
10  Modelo: Sonnet 5
11  Instrucciones: "Usar para tareas mecánicas, código repetitivo, pruebas,
12  formateo, ediciones simples. Ejecuta de manera eficiente."

Paso 4: Pide a Fable que escriba un SKILL.md para Codex

text

1Escribe un SKILL.md que le enseñe a Codex exactamente cómo:
2- Leer y ejecutar planes de implementación
3- Ejecutar pruebas e informar los resultados de vuelta a ti
4- Manejar la estructura de archivos específica en este proyecto

Haz que Codex no necesite ninguna ayuda en el trabajo mecánico.

Fable escribe la habilidad una vez.

Codex la lee en cada ejecución futura.

Tu resultado de Codex mejora inmediatamente 10 veces.

El comando /loop (La forma más poderosa de usar Fable ahora mismo)

La mayoría de la gente todavía incita a la antigua usanza.

Tú incitas → Fable responde → tú revisas → vuelves a incitar → repites.

En ese modelo, tú eres el bucle.

Verificas manualmente cada paso, cada corrección, cada seguimiento.

Los bucles te eliminan a ti como el cuello de botella.

Cómo funciona:

Le das un objetivo a Fable por adelantado.

Él inicia subagentes para trabajar hacia ese objetivo.

Los agentes se incitan a sí mismos e informan cuando terminan.

Los dos comandos:

text

1/goal — define la tarea y el estado final
2
3Estructura:
4/goal [tarea] hasta [estado final medible] sin [restricciones]
5
6Ejemplo:
7/goal refactorizar el módulo de autenticación hasta que las 47 pruebas pasen
8sin tocar el servicio de pago ni el esquema de la base de datos

text

1/loop — ejecuta una incitación en un horario automáticamente
2
3Estructura:
4/loop [tu incitación] --intervalo 30m --expira 8h
5
6Ejemplo:
7/loop ejecutar verificación de seguridad en todos los endpoints de la API
8--intervalo 24h --expira 7d

La combinación:

text

1/goal reconstruir el componente del panel hasta que la puntuación
2de Lighthouse supere 90 en móvil sin romper las pruebas existentes
3
4/loop ejecutar /goal de arriba --intervalo 6h --expira 48h

Fable diseña el bucle. Los modelos más baratos ejecutan el 80% de la ejecución dentro del bucle. Fable solo regresa cuando el bucle se cierra o encuentra un bloqueador.

Te despiertas con una tarea terminada.

[INSERT IMAGE 5 — PROMPT BELOW]

7 incitaciones para ejecutar en Fable ahora mismo

Estas son las cosas de mayor apalancamiento para hacer con Fable antes de usarlo para cualquier otra cosa.

No es codificación por vibra.

No es enviar funciones.

Es afilar cada sistema que ya tienes.

1. Encuentra lo que realmente vale la pena ejecutar en Fable

text

1Eres Fable 5, el modelo más capaz disponible.
2
3Mira a través de mis proyectos, documentos y memoria.
4
5Enumera las 5 tareas principales que realmente valen la pena ejecutar en ti.
6
7Clasifícalas con una razón de una línea cada una.
8
9No hagas el trabajo todavía.

2. Rediseña cómo construyes antes de construir cualquier cosa

text

1Quiero que audites y rediseñes completamente mi flujo de trabajo de codificación.
2
3Así es como trabajo actualmente: [describe tu proceso]
4
5Mi objetivo es: [lo que estás tratando de enviar]
6
7Revisa, audita, afila y mejora mi sistema.
8
9No escribas código. Rediseña la fábrica antes de ponerla en marcha.

3. Planifica el gran proyecto — no lo construyas todavía

text

1Quiero planificar: [describe el proyecto]
2
3No construyas todavía.
4
5Presenta el plan completo: fases, decisiones clave, riesgos
6y preguntas abiertas.
7
8Señala cualquier cosa que pueda hundirlo.
9
10Haz que el plan sea lo suficientemente claro como para que Sonnet o Codex
11puedan ejecutarlo paso a paso sin hacerme preguntas.

4. Encuentra todo lo que está mal antes de enviar

text

1Estoy a punto de enviar este proyecto.
2
3Encuentra todo lo que está mal primero.
4
5Lee todo el código base.
6
7Busca errores reales, casos extremos rotos y cualquier cosa que
8se rompa frente a un usuario.
9
10Enumera cada problema con: cómo reproducirlo y la solución.
11
12Mantén un estándar alto. Sé despiadado.

5. Reconstruye tu CLAUDE.md desde cero

text

1Lee mi CLAUDE.md actual.
2
3Fue escrito para modelos más antiguos y está inflado.
4
5Las instrucciones más cortas y limpias funcionan mejor y cuestan menos
6en Fable.
7
8Reescríbelo:
9- Elimina las instrucciones que Fable ya no necesita
10- Aprieta cada flujo de trabajo
11- Añade la tabla de enrutamiento de modelos de nuestra conversación
12- Mantén cada sección por debajo de 5 líneas cuando sea posible
13
14Fable descubrirá el resto por sí mismo.

6. Obtén consejos de negocio de todo lo que sabe sobre ti

text

1Eres mi asesor de negocios.
2
3Lee mi documento de plan, herramientas conectadas y memoria.
4
5Escribe una evaluación de una página de mi negocio e incluye:
6- Las 3 cosas principales en las que centrarme para los próximos 3 meses
7- Qué dejar y por qué
8- Una cosa a la que probablemente soy ciego

7. Barrido de seguridad en piloto automático

text

1/loop ejecutar una verificación de seguridad en todos mis endpoints de API.
2
3Busca: claves expuestas, autenticación faltante, brechas en límites de tasa,
4vectores de inyección y cualquier cosa que un usuario malintencionado pueda explotar.
5
6Informa solo problemas reales con clasificaciones de gravedad.
7
8--intervalo 24h --expira 7d

Niveles de esfuerzo — la configuración más malinterpretada

La mayoría de la gente usa máx o xalto por defecto.

Esto está mal.

Esto es lo que realmente sucede en cada nivel:

→ Bajo: Rápido, barato, sorprendentemente capaz para tareas simples. Mucha gente reporta resultados increíbles aquí.

→ Medio: El punto óptimo. Fable en medio supera a Opus en extra alto. Usa este por defecto.

→ Alto: Usar para: depuración difícil, refactorizaciones de múltiples archivos, decisiones de arquitectura. Poder de razonamiento real.

→ Xalto / Máx: Horno de tokens. A menudo produce resultados PEORES que Alto. Resérvalo para los problemas más difíciles que hayas enfrentado.

La regla: comienza en Medio. Pasa a Alto solo si la calidad realmente se queda corta. Nunca uses máx por defecto.

Una configuración más que mata los presupuestos:

Pensamiento Extendido — déjalo apagado por defecto.

Actívalo solo para problemas que realmente lo requieran. Dejarlo encendido permanentemente es como dejar el motor encendido en la entrada de tu casa.

El truco /handoff — soluciona la hinchazón de la ventana de contexto

Las sesiones largas son un asesino silencioso.

Cada turno reenvía el historial completo de la conversación.

Una sesión de 200k tokens se convierte en la cosa más cara de tu factura.

La solución: abre nuevos chats con frecuencia.

Pero no quieres perder el contexto cuando lo haces.

Usa la habilidad /handoff:

text

1Dame una incitación que pueda usar para reiniciar esta sesión en
2un nuevo chat sin perder nada de nuestro contexto.
3
4Incluye:
5- Lo que decidimos
6- Lo que construimos
7- Cuáles son los siguientes pasos
8- Cualquier restricción importante que deba recordar
9
10Haz que tenga menos de 500 tokens para que la nueva sesión comience ligera.

Copia ese resultado.

Abre un nuevo chat.

Pégalo.

Continúa exactamente donde lo dejaste con una fracción del costo de contexto.

Sesión nueva cada 30–60 minutos = ahorro masivo de tokens.

Los 4 errores caros que debes evitar

Error 1: Fable es ahora el predeterminado.

Cuando abres Claude Code, usa Fable automáticamente.

Verifica el selector de modelo antes de cada sesión.

Este único hábito me ha pillado ejecutando Fable accidentalmente en chats normales más veces de las que quiero admitir.

Error 2: Sin límite de gasto.

El 7 de julio, Fable se mueve fuera de las suscripciones estándar.

Añade una tarjeta de crédito y establece un límite mensual duro inmediatamente.

Configuración → Uso → Ajustar Límite.

Fable quema tokens rápidamente en ejecuciones autónomas y sesiones largas.

Sin un límite duro, una ejecución de agente nocturna puede acumular una factura antes de que te despiertes.

Alguien ya fue facturado con $960 en una sola incitación.

Establece el límite esta noche.

Error 3: Pedirle que explique su razonamiento.

Esa única solicitud puede activar clasificadores y tu trabajo es manejado silenciosamente por un modelo más débil mientras piensas que todavía estás en Fable.

Omite las solicitudes de "por qué". Juzga la calidad del resultado, no el proceso.

Error 4: Darle incitaciones pequeñas gota a gota.

Fable mantiene horas de contexto en su cabeza.

Dale todo el asunto desordenado de una vez.

Contexto completo. Las limitaciones. De lo que realmente tienes miedo.

Le di a Fable una refactorización que había estado temiendo durante semanas en un solo resumen. Volvió hecha.

Darle incitaciones gota a gota desperdicia lo único en lo que es mejor.

La comparación de costos de modelos — sabe lo que realmente estás pagando

Antes de enrutar cualquier cosa, conoce el precio de cada modelo:

Modelo Entrada ($/M) Salida ($/M) Mejor para

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

Fable 5 ~$15 ~$75 Planificación, revisión

Opus 4.8 ~$5 ~$25 Razonamiento profundo

Sonnet 5 ~$3 ~$15 Ejecución estándar

Kimi K2.7 ~$0.95 ~$4.00 Codificación masiva, contexto largo

GLM-5.2 ~$1.40 ~$4.40 Trabajo a escala de repositorio

DeepSeek v4 ~$0.28 ~$1.10 Trabajo pesado súper barato

Haiku 4.5 ~$1 ~$5 Limpieza, formateo

Local (Qwen/Llama) $0 $0 Autocompletado, código repetitivo

━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

La brecha entre Fable y DeepSeek: 53x en entrada. 68x en salida.

El mismo agente de refactorización de 30 pasos: → Todo Fable: ~$25 por ejecución → Plan de Fable + ejecución de Kimi: ~$1.40 por ejecución → Mismo código enviado. Mismas pruebas pasando.

Enrutar no se trata de ser barato.

Se trata de ser preciso.

El sistema completo — cómo se ve en funcionamiento

Antes de este sistema:

→ Todo se enruta a Fable

→ La factura se dispara cada vez que envías algo

→ Los límites de uso se alcanzan a mitad de sesión

→ Racionas las incitaciones como un viajero con poco presupuesto

Después de este sistema:

→ Fable maneja el 10% que realmente lo necesita

→ Los modelos baratos manejan el 80% de la ejecución

→ /loop se ejecuta durante la noche sin tocar tu límite

→ Envías más, gastas menos, nunca alcanzas un límite de tasa

El resumen de tres líneas:

Fable planifica. Otros ejecutan. Fable revisa.

Esa única regla reduce tu factura en más del 50% antes de que cambies cualquier otra cosa.

El resto es optimización.

Ejecuta esto esta noche

Pon esto en Fable ahora mismo:

Lee mi CLAUDE.md actual y todos mis proyectos activos.

Tu trabajo: configurar el sistema de enrutamiento 10-80-10 para mi flujo de trabajo.

Crea:

CLAUDE.md actualizado con la tabla de enrutamiento de modelos completa
Una lista de mis tareas activas actuales clasificadas por qué modelo debería manejar cada una
Tres incitaciones /goal que pueda ejecutar esta noche en modelos más baratos basadas en lo que ves en mis proyectos

No ejecutes nada. Solo planifica y enruta.

Fable hace la planificación.

Te despiertas con un sistema de enrutamiento completo.

Y una factura que no te da un infarto.

Si esto te ahorró dinero:

→ Republica para que otros constructores dejen de quemar sus presupuestos

→ Sigue a @sairahul1 para más sistemas como este

→ Marca esto como favorito — las configuraciones de CLAUDE.md funcionan, pégalas esta noche

Suscríbete a theaibuilders.co para más artículos interesantes como este

Escribo sobre IA, construcción de productos y sistemas que funcionan mientras duermes.

Recursos:

→ Enrutador de tokens Entelligence: entelligence.ai/blogs/entelligence-token-router

→ Flujo de trabajo de tres modelos que redujo las facturas un 80%: entelligence.ai/blogs/our-three-model-coding-workflow-that-cut-our-ai-bill-80

→ Claude Code: claude.ai/code

→ Codex CLI: npmjs.com/package/@openai/codex

Cómo usar Claude Fable 5 sin arruinarte

El Sistema 10-80-10 (El marco exacto que usan los propios ingenieros de Anthropic)

La tabla de enrutamiento de CLAUDE.md (Un archivo que lo controla todo)

La configuración exacta de CLAUDE.md que ahorró el 70% de mis tokens

Instalando el plugin de Codex — el movimiento multiplicador

El comando /loop (La forma más poderosa de usar Fable ahora mismo)

7 incitaciones para ejecutar en Fable ahora mismo

Niveles de esfuerzo — la configuración más malinterpretada

El truco /handoff — soluciona la hinchazón de la ventana de contexto

Los 4 errores caros que debes evitar

La comparación de costos de modelos — sabe lo que realmente estás pagando

El sistema completo — cómo se ve en funcionamiento

Ejecuta esto esta noche

Si esto te ahorró dinero:

Recursos:

Turn one viral article into a full content workflow

Artículos virales recientes

Diseño de un entorno de ejecución programable para la orquestación de agentes

Investigación de Harvard: El vínculo entre los ingresos y la asignación del tiempo: 5 preguntas para mejorar los resultados

Guía de configuración de Claude Fable 5: Cómo obtener la máxima calidad al mínimo coste (configuración exacta incluida)

Decir "consúltame cuando quieras" no es mentoría real: una guía para un acompañamiento profesional auténtico

Kioxia $KXIAY: Tesis de inversión

Cómo convertir Sonnet 5 en Fable 5: 7 ajustes de nivel experto basados en entrevistas con Claude

Cómo usar Claude Fable 5 sin arruinarte

El Sistema 10-80-10 (El marco exacto que usan los propios ingenieros de Anthropic)

La tabla de enrutamiento de CLAUDE.md (Un archivo que lo controla todo)

La configuración exacta de CLAUDE.md que ahorró el 70% de mis tokens

Instalando el plugin de Codex — el movimiento multiplicador

El comando /loop (La forma más poderosa de usar Fable ahora mismo)

7 incitaciones para ejecutar en Fable ahora mismo

Niveles de esfuerzo — la configuración más malinterpretada

El truco /handoff — soluciona la hinchazón de la ventana de contexto

Los 4 errores caros que debes evitar

La comparación de costos de modelos — sabe lo que realmente estás pagando

El sistema completo — cómo se ve en funcionamiento

Ejecuta esto esta noche

Si esto te ahorró dinero:

Recursos:

Turn one viral article into a full content workflow

Convierte tu Markdown en un artículo de 𝕏 impecable

Artículos virales recientes

Diseño de un entorno de ejecución programable para la orquestación de agentes

Investigación de Harvard: El vínculo entre los ingresos y la asignación del tiempo: 5 preguntas para mejorar los resultados

Guía de configuración de Claude Fable 5: Cómo obtener la máxima calidad al mínimo coste (configuración exacta incluida)

Decir "consúltame cuando quieras" no es mentoría real: una guía para un acompañamiento profesional auténtico

Kioxia $KXIAY: Tesis de inversión

Cómo convertir Sonnet 5 en Fable 5: 7 ajustes de nivel experto basados en entrevistas con Claude