¿Alguna vez te has encontrado con esta situación?
El mismo Claude, el mismo GPT-4o: una persona lo usa para escribir 1 millón de líneas de código en 5 meses, mientras que otra ni siquiera logra que funcione de manera estable durante dos horas.
Los modelos son idénticos, pero los resultados son diametralmente opuestos.
¿Dónde está el problema?
Recientemente leí varios artículos de OpenAI, Anthropic, Martin Fowler y Phil Schmid, y descubrí que todos hablan de lo mismo.
Lo llaman Harness Engineering.
En pocas palabras, se trata de construir un "sistema operativo" para tu Agente.
Primero, entiende qué es un Harness

Phil Schmid hizo una gran analogía en una publicación del blog de HuggingFace.
Piensa en un sistema de Agente como una computadora.
El modelo es la CPU, que proporciona potencia de cómputo bruta. La ventana de contexto es la RAM, que almacena cosas temporalmente. El Agente es la aplicación que se ejecuta sobre ellos.
Entonces, ¿qué es el sistema operativo?
El Harness es el sistema operativo.
Sin un SO, incluso la CPU más potente es solo un chip. No puedes escribir en un chip.
De manera similar, sin un Harness, incluso el modelo más inteligente es solo una caja de chat. Si le permites ejecutar una tarea compleja durante una hora, ¿qué pasa si olvida el contexto? ¿Quién lo detiene de escribir código basura? ¿Qué pasa si comete un error y ni siquiera lo sabe?
Estos no son problemas que resuelvas "cambiando a un modelo más inteligente".
Martin Fowler dijo algo que me quedó grabado: los Harnesses podrían convertirse en "plantillas de servicio" en el futuro. Así como hoy inicias un nuevo proyecto con una plantilla de servicio, iniciarás un nuevo Agente con una plantilla de Harness.
Creo que esta predicción probablemente se hará realidad.
¿Por qué está explotando de repente en 2026?

Porque los modelos ya son lo suficientemente potentes.
En 2024, todos competían por ver qué modelo era más inteligente. Para 2026, la brecha entre los modelos de primer nivel se ha vuelto muy pequeña. Si le das a Claude y a GPT el mismo problema, sus puntuaciones difieren solo por unos pocos puntos.
Pero si los dejas trabajar durante 8 horas seguidas, la brecha aparece.
Esta brecha no está en el modelo en sí; está en el "harness" que lo rodea.
El equipo de Codex de OpenAI tiene una estadística asombrosa. Usaron Codex para construir un producto completo: 5 meses, 1 millón de líneas de código, cero líneas escritas a mano. Durante todo el proceso, descubrieron que el cuello de botella ya no era "si el modelo puede escribir código".
El cuello de botella era si los humanos podían revisar el código lo suficientemente rápido.
La velocidad de salida del modelo ha superado la velocidad de revisión humana. En este punto, ¿de qué sirve optimizar el modelo? Debes optimizar el proceso de revisión, el control de calidad y las restricciones arquitectónicas.
Eso es lo que hace el Harness.
Los Tres Pilares

Entonces, ¿qué contiene realmente un Harness?
Después de leer estos artículos, descubrí que, aunque los términos varían, hay tres pilares fundamentales.
1. Bucle Cerrado de Evaluación
Esto es lo que Anthropic enfatiza más.
La idea central es simple: Un Agente no puede calificarse a sí mismo.
Piénsalo: si un pasante termina un informe y le preguntas cómo le fue, dirá "está bien". Necesitas una persona independiente que evalúe.
Anthropic llama a esto "Desarrollo Impulsado por Evaluación". Primero define cómo se ve "hacerlo bien", luego deja que el Agente lo haga y finalmente un evaluador independiente lo califica.
El Desarrollo Impulsado por Evaluación es la versión de TDD para Agentes. Escribe las pruebas primero, luego el código. Excepto que aquí, las "pruebas" son para el Agente.
El evaluador no solo mira el código. En realidad opera el producto, usando Playwright para hacer clic en botones, llenar formularios y ejecutar pruebas, luego juzga según estándares claros.
Hay un caso fascinante aquí.
Opus 4.5 de Anthropic encontró una laguna en una política de reservas durante una prueba de reserva de vuelos, hallando una solución mejor que la respuesta estándar.
Pero el evaluador lo marcó como "fallo".
¿Por qué? Porque el evaluador no esperaba una solución tan creativa. Solo había una respuesta estándar, y como el Agente encontró una mejor, fue penalizado.
Esta historia muestra dos cosas: primero, los Agentes son lo suficientemente inteligentes para encontrar soluciones que los humanos no han pensado. Segundo, el bucle de evaluación no solo verifica al Agente; también verifica la evaluación misma. Si tu evaluador es demasiado rígido, se convierte en el cuello de botella.
Otro dato: Opus 4.5 inicialmente obtuvo un 42% en CORE-Bench. Después de corregir errores de puntuación y relajar las restricciones del andamiaje, la puntuación saltó al 95%.
A menudo, no es que el modelo no sea lo suficientemente bueno; es que tu Harness tiene problemas.
Usando este método, Anthropic hizo que un Agente construyera un juego completo en 6 horas por $200.
2. Restricciones Arquitectónicas
Esta es la especialidad del equipo de Codex de OpenAI.
Le dices a un pasante "el código debe estar en capas", asiente, y luego inmediatamente escribe lógica de UI en la capa de base de datos.
Hablar es inútil.
El enfoque de OpenAI es imponerlo mecánicamente mediante linters y CI. El código que viola las reglas arquitectónicas es rechazado de inmediato, sin siquiera obtener una revisión.
Su estructura de capas de código se ve así: Types → Config → Service → UI. Cada capa solo puede depender de la capa superior, nunca al revés. Esta regla no solo está escrita en un documento; está escrita en un linter para verificación automática.
Aún mejor, estos linters son generados por el propio Codex.
El Agente escribe sus propias reglas y luego las sigue.
Martin Fowler dijo después de leer el artículo de OpenAI:
"Aumentar la confianza y la confiabilidad requiere restringir el espacio de soluciones. Esto significa renunciar a parte de la flexibilidad para 'generar cualquier cosa'."
Cuantas más restricciones, más confiable.
Suena contraintuitivo, pero los datos hablan. LangChain hizo un experimento: sin cambiar el modelo, solo cambiaron el Harness, y la tasa de aprobación de Terminal Bench 2.0 saltó del 52.8% al 66.5%. Vercel fue más allá, eliminando el 80% de las herramientas del Agente, lo que resultó en menos pasos, mayor velocidad y mejores resultados.
Menos herramientas a menudo conducen a un mejor rendimiento: esta conclusión se ha verificado repetidamente en el campo de los Agentes.
3. Gestión de la Memoria
Este pilar se discute menos, pero creo que es el más importante a largo plazo.
PrismerCloud ha hecho un trabajo profundo en esta dirección.
El problema es: cuando múltiples Agentes comparten una base de conocimiento, el Agente A escribe una experiencia y el Agente B la lee como verdad. ¿Pero qué pasa si el Agente A estaba equivocado?
La alucinación de un Agente puede contaminar a todos los Agentes a través de la base de conocimiento compartida.
El enfoque de PrismerCloud es construir un "Motor de Evolución". Cada experiencia del Agente se registra primero como una "señal". Una vez verificada, las señales se destilan en "genes", que se optimizan continuamente según los resultados reales.
En pocas palabras, los genes son conocimiento verificado y efectivo. Si no está verificado, no cuenta.
Hay una estadística interesante: 3 líneas de prompt más un sistema de memoria funcionan aproximadamente tan bien como 200 líneas de prompts expertos cuidadosamente elaborados. Además, el primero evoluciona, mientras que el segundo es estático.
Esto significa que si tu sistema de memoria es bueno, no necesitas prompts complejos. El Agente mejorará naturalmente con el tiempo.
Extra: Resistencia a la Entropía
No es un pilar independiente, pero vale la pena mencionarlo.
Los sistemas de Agentes se deterioran naturalmente con el tiempo. Los documentos caducan, las arquitecturas se eluden y las bases de conocimiento se llenan de información obsoleta.
El enfoque de OpenAI es ejecutar periódicamente un "Agente de Refactorización" para escanear inconsistencias documentales y violaciones arquitectónicas. Lo dijeron mejor:
"Cuando un Agente tiene dificultades, lo tratamos como una señal: averiguar qué falta, retroalimentarlo en la base de código y siempre dejar que Codex escriba la corrección."
Cuando un Agente tiene problemas, no solo arregles al Agente: arregla el Harness. Esta mentalidad es clave.
¿Quién está haciendo esto?

El campo se divide en dos caminos: proyectos de código abierto que puedes usar hoy, y prácticas internas de empresas comerciales donde solo puedes aprender la metodología.
Proyectos de Código Abierto: Listos para Usar
LangChain DeepAgents: Probablemente el proyecto de código abierto más cercano a un "Claude Code universal". Planificación, operaciones de archivos, delegación de subagentes, compresión automática de contexto: listo para usar. 115k estrellas en GitHub.
DeerFlow 2.0: De ByteDance. Publicado como código abierto en marzo, alcanzó 39k estrellas en un mes. Se autodenomina un "SuperAgent Harness". Es una reescritura completa de v1 con ejecución en sandbox, memoria persistente y sistemas de habilidades basados en LangGraph.
OpenHands: Especializado en Agentes de codificación. Alcanzó un 77.6% en SWE-bench Verified. Es independiente del modelo y usa Laminar para observabilidad, rastreando cada acción del Agente.
SWE-agent: De Princeton y Stanford. Se enfoca en perfeccionar el desarrollo "impulsado por evaluación".
Goose: Publicado como código abierto por Block (Square/Cash App). Un Agente general en la máquina que puede instalar dependencias, ejecutar pruebas y gestionar archivos.
PrismerCloud: Se enfoca en la gestión de la memoria y el motor de evolución. Es la solución más madura para prevenir la contaminación por alucinaciones en sistemas multiagente.
Cognee: Un motor de memoria impulsado por grafos de conocimiento para Agentes que ayuda a establecer conexiones semánticas entre datos.
Prácticas Comerciales: Aprende la Metodología
Claude Code + Agent SDK: El punto de referencia de Anthropic para un Harness general. No es solo para codificar; lo usan para investigación, creación de videos y toma de notas.
OpenAI Codex: La práctica definitiva en restricciones arquitectónicas. 1 millón de líneas de código sin escritura manual, confiando en linters autogenerados y revisiones entre pares de Agentes.
Una Lección Que Me Quedó Grabada

Rich Sutton escribió un artículo clásico llamado "The Bitter Lesson". La esencia es que los métodos generales que aprovechan la computación siempre superan a los métodos específicos diseñados por humanos a largo plazo.
Esta lección se está demostrando nuevamente en el campo de los Agentes.
Manus refactorizó su Harness 5 veces en 6 meses. LangChain reestructuró su arquitectura 3 veces en un año. Vercel eliminó el 80% de sus herramientas.
Construye para Eliminar.
La "lógica inteligente" que escribes hoy podría quedar obsoleta mañana cuando el modelo se actualice. Tu arquitectura debe ser modular y estar lista para ser desechada.
Phil Schmid dijo algo que vale la pena recordar:
"La ventaja competitiva ya no es el prompt; son las trayectorias capturadas por tu Harness. Cada éxito y fracaso son datos para entrenar a la próxima generación."
Cuanto más tiempo funcione tu Harness y más trayectorias acumule, más fuerte se vuelve tu Agente. No puedes ponerte al día solo cambiando de modelo.
Las Tres Etapas

Piensa en el lugar del Harness en la ingeniería de IA de esta manera.
Prompt Engineering resuelve "qué decir". Una sola interacción.
Context Engineering resuelve "qué saber". Proporciona referencias e historial.
Harness Engineering resuelve "cómo trabajar de manera continua, estable y a escala". Los bucles de evaluación aseguran la calidad, las restricciones arquitectónicas aseguran las reglas, y la gestión de la memoria asegura la acumulación de experiencia.
Sin un Harness, un Agente puede recordar cosas pero no tiene supervisión, lo que lleva al caos. Cuando las tres capas están en su lugar, tienes un personaje que puede trabajar verdaderamente a largo plazo.
OpenAI, Anthropic y LangChain ya están haciendo esto.
Fuentes: OpenAI Harness Engineering, Anthropic Demystifying Evals, Phil Schmid (HuggingFace) The Importance of Agent Harness in 2026, Martin Fowler Harness Engineering, LangChain Agent Frameworks.





