Já passou por esta situação?
O mesmo Claude, o mesmo GPT-4o — uma pessoa usa para escrever 1 milhão de linhas de código em 5 meses, enquanto outra não consegue fazê-lo funcionar de forma estável por duas horas.
Os modelos são idênticos, mas os resultados são mundos de diferença.
Onde está o problema?
Recentemente, li vários artigos da OpenAI, Anthropic, Martin Fowler e Phil Schmid, e descobri que todos estão falando sobre a mesma coisa.
Eles chamam isso de Harness Engineering.
Simplificando, é construir um "sistema operacional" para o seu Agente.
Primeiro, Entenda o que é um Harness

Phil Schmid fez uma ótima analogia em um post no blog da HuggingFace.
Pense em um sistema de Agente como um computador.
O modelo é a CPU, fornecendo poder de processamento bruto. A janela de contexto é a RAM, armazenando coisas temporariamente. O Agente é o aplicativo rodando sobre eles.
Então, qual é o sistema operacional?
O Harness é o sistema operacional.
Sem um SO, até a CPU mais potente é apenas um chip. Você não consegue digitar em um chip.
Da mesma forma, sem um Harness, até o modelo mais inteligente é apenas uma caixa de chat. Se você o deixar executar uma tarefa complexa por uma hora, e se ele esquecer o contexto? Quem o impede de escrever código de baixa qualidade? E se ele cometer um erro e nem perceber?
Esses não são problemas que você resolve "trocando para um modelo mais inteligente."
Martin Fowler disse algo que ficou comigo: Harnesses podem se tornar "modelos de serviço" no futuro. Assim como você inicia um novo projeto hoje com um modelo de serviço, você iniciará um novo Agente com um modelo de Harness.
Acho que essa previsão provavelmente se concretizará.
Por que Explodiu de Repente em 2026?

Porque os modelos agora são fortes o suficiente.
Em 2024, todos competiam para ver qual modelo era mais inteligente. Em 2026, a diferença entre os modelos de ponta se tornou muito pequena. Se você der o mesmo problema para Claude e GPT, suas pontuações diferem por apenas alguns pontos.
Mas se você os deixar trabalhar por 8 horas seguidas, a diferença aparece.
Essa diferença não está no modelo em si; está no "harness" que o envolve.
A equipe Codex da OpenAI tem uma estatística impressionante. Eles usaram o Codex para construir um produto completo — 5 meses, 1 milhão de linhas de código, zero linhas escritas à mão. Durante todo o processo, eles descobriram que o gargalo não era mais "se o modelo consegue escrever código."
O gargalo era se os humanos conseguiam revisar o código rápido o suficiente.
A velocidade de saída do modelo ultrapassou a velocidade de revisão humana. Neste ponto, de que adianta otimizar o modelo? Você deve otimizar o processo de revisão, o controle de qualidade e as restrições arquiteturais.
É isso que o Harness faz.
Os Três Pilares

Então, o que um Harness realmente contém?
Depois de ler esses artigos, descobri que, embora os termos variem, existem três pilares centrais.
1. Ciclo Fechado de Avaliação
Isso é o que a Anthropic mais enfatiza.
A ideia central é simples: Um Agente não pode se autoavaliar.
Pense nisso: se um estagiário termina um relatório e você pergunta como ele se saiu, ele dirá "está ok." Você precisa de uma pessoa independente para avaliar.
A Anthropic chama isso de "Desenvolvimento Orientado por Avaliação." Primeiro, defina o que significa "fazer bem feito", depois deixe o Agente fazer, e finalmente, um avaliador independente dá a nota.
Desenvolvimento Orientado por Avaliação é a versão Agente do TDD. Escreva os testes primeiro, depois o código. Só que aqui, os "testes" são para o Agente.
O avaliador não olha apenas para o código. Ele realmente opera o produto — usando Playwright para clicar em botões, preencher formulários e executar testes — e então julga com base em critérios claros.
Há um caso fascinante aqui.
O Opus 4.5 da Anthropic encontrou uma brecha em uma política de reserva durante um teste de reserva de voo, encontrando uma solução melhor que a resposta padrão.
Mas o avaliador marcou como "falha."
Por quê? Porque o avaliador não esperava uma solução tão criativa. Havia apenas uma resposta padrão, e como o Agente encontrou uma melhor, foi penalizado.
Essa história mostra duas coisas: primeiro, os Agentes são inteligentes o suficiente para encontrar soluções que os humanos não pensaram. Segundo, o ciclo de avaliação não está apenas verificando o Agente; ele também está verificando a própria avaliação. Se seu avaliador for muito rígido, ele se torna o gargalo.
Outro dado: o Opus 4.5 inicialmente obteve 42% no CORE-Bench. Depois que corrigiram bugs de pontuação e relaxaram as restrições do scaffold, a pontuação saltou para 95%.
Muitas vezes, não é que o modelo não seja bom o suficiente; é que seu Harness tem problemas.
Usando esse método, a Anthropic fez um Agente construir um jogo completo em 6 horas por US$ 200.
2. Restrições Arquiteturais
Esta é a especialidade da equipe Codex da OpenAI.
Você diz a um estagiário "o código precisa ser em camadas", ele concorda, e imediatamente escreve lógica de UI na camada do banco de dados.
Falar é inútil.
A abordagem da OpenAI é impor mecanicamente via linters e CI. Código que viola regras arquiteturais é rejeitado imediatamente, sem sequer passar por revisão.
A estrutura de camadas deles é assim: Types → Config → Service → UI. Cada camada só pode depender da camada acima dela, nunca o contrário. Essa regra não está apenas escrita em um documento; está escrita em um linter para verificação automática.
Melhor ainda, esses linters são gerados pelo próprio Codex.
O Agente escreve suas próprias regras e depois as segue.
Martin Fowler disse após ler o artigo da OpenAI:
"Aumentar a confiança e a confiabilidade requer restringir o espaço de soluções. Isso significa abrir mão de parte da flexibilidade para 'gerar qualquer coisa'."
Quanto mais restrições, mais confiável.
Parece contraintuitivo, mas os dados falam. A LangChain fez um experimento: sem mudar o modelo, apenas mudando o Harness, a taxa de aprovação no Terminal Bench 2.0 saltou de 52,8% para 66,5%. A Vercel foi além, deletando 80% das ferramentas do Agente, resultando em menos etapas, mais velocidade e melhores resultados.
Menos ferramentas geralmente levam a melhor desempenho — essa conclusão tem sido repetidamente verificada no campo de Agentes.
3. Governança de Memória
Este pilar é menos discutido, mas acho que é o mais importante a longo prazo.
A PrismerCloud fez um trabalho profundo nessa direção.
O problema é: quando vários Agentes compartilham uma base de conhecimento, o Agente A escreve uma experiência, e o Agente B a lê como verdade. Mas e se o Agente A estiver errado?
A alucinação de um Agente pode poluir todos os Agentes através da base de conhecimento compartilhada.
A abordagem da PrismerCloud é construir um "Mecanismo de Evolução." Cada experiência do Agente é primeiro registrada como um "sinal." Uma vez verificado, os sinais são destilados em "genes," que são continuamente otimizados com base nos resultados reais.
Simplificando, genes são conhecimento verificado e eficaz. Se não for verificado, não conta.
Há uma estatística interessante: 3 linhas de prompt mais um sistema de memória têm desempenho aproximadamente equivalente a 200 linhas de prompts especialistas cuidadosamente elaborados. Além disso, o primeiro evolui, enquanto o segundo é estático.
Isso significa que, se seu sistema de memória for bom, você não precisa de prompts complexos. O Agente melhorará naturalmente com o tempo.
Bônus: Resistência à Entropia
Isso não é um pilar independente, mas vale a pena mencionar.
Sistemas de Agente naturalmente se degradam com o tempo. Documentos expiram, arquiteturas são contornadas e bases de conhecimento se enchem de informações desatualizadas.
A abordagem da OpenAI é executar periodicamente um "Agente de Refatoração" para escanear inconsistências em documentos e violações arquiteturais. Eles disseram o melhor:
"Quando um Agente tem dificuldades, tratamos isso como um sinal: descubra o que está faltando, alimente de volta no código-base e sempre deixe o Codex escrever a correção."
Quando um Agente tem problemas, não conserte apenas o Agente — conserte o Harness. Essa mentalidade é a chave.
Quem Está Fazendo Isso?

O campo está dividido em dois caminhos: projetos de código aberto que você pode usar hoje e práticas internas de empresas comerciais onde você só pode aprender a metodologia.
Projetos de Código Aberto: Prontos para Usar
LangChain DeepAgents: Provavelmente o projeto de código aberto mais próximo de um "Claude Code universal." Planejamento, operações de arquivos, delegação de subagentes, compressão automática de contexto — pronto para uso imediato. 115k estrelas no GitHub.
DeerFlow 2.0: Da ByteDance. Código aberto em março, alcançou 39k estrelas em um mês. Ele se autodenomina um "SuperAgent Harness." É uma reescrita completa do v1 com execução em sandbox, memória persistente e sistemas de habilidades baseados em LangGraph.
OpenHands: Especializado em Agentes de codificação. Alcançou 77,6% no SWE-bench Verified. É independente de modelo e usa Laminar para observabilidade, rastreando cada ação do Agente.
SWE-agent: Da Princeton e Stanford. Foca em aperfeiçoar o desenvolvimento "orientado por avaliação."
Goose: Código aberto pela Block (Square/Cash App). Um Agente geral na máquina que pode instalar dependências, executar testes e gerenciar arquivos.
PrismerCloud: Foca em governança de memória e no mecanismo de evolução. É a solução mais madura para prevenir poluição por alucinação em sistemas multiagente.
Cognee: Um mecanismo de memória orientado por grafo de conhecimento para Agentes que ajuda a estabelecer conexões semânticas entre dados.
Práticas Comerciais: Aprenda a Metodologia
Claude Code + Agent SDK: O benchmark da Anthropic para um Harness geral. Não é apenas para codificação; eles o usam para pesquisa, criação de vídeos e anotações.
OpenAI Codex: A prática definitiva em restrições arquiteturais. 1 milhão de linhas de código sem escrita manual, contando com linters autogerados e revisões por pares de Agentes.
Uma Lição Que Ficou Comigo

Rich Sutton escreveu um artigo clássico chamado "The Bitter Lesson." A essência é que métodos gerais que alavancam computação sempre superam métodos específicos projetados por humanos a longo prazo.
Esta lição está sendo provada novamente no campo de Agentes.
A Manus refez seu Harness 5 vezes em 6 meses. A LangChain re-arquitetou 3 vezes em um ano. A Vercel deletou 80% de suas ferramentas.
Construa para Deletar.
A "lógica inteligente" que você escreve hoje pode estar obsoleta amanhã quando o modelo for atualizado. Sua arquitetura deve ser modular e pronta para ser descartada.
Phil Schmid disse algo que vale a pena lembrar:
"A vantagem competitiva não é mais o prompt; são as trajetórias capturadas pelo seu Harness. Cada sucesso e fracasso são dados para treinar a próxima geração."
Quanto mais tempo seu Harness funcionar e mais trajetórias ele acumular, mais forte seu Agente se torna. Você não consegue alcançar apenas trocando de modelos.
Os Três Estágios

Pense no lugar do Harness na engenharia de IA assim.
Prompt Engineering resolve "o que dizer." Uma interação única.
Context Engineering resolve "o que saber." Fornecer referências e histórico.
Harness Engineering resolve "como trabalhar de forma contínua, estável e em escala." Ciclos de avaliação garantem qualidade, restrições arquiteturais garantem regras, e governança de memória garante acúmulo de experiência.
Sem um Harness, um Agente pode lembrar das coisas, mas não tem supervisão, levando ao caos. Quando todas as três camadas estão em vigor, você tem um personagem que pode realmente trabalhar a longo prazo.
OpenAI, Anthropic e LangChain já estão fazendo isso.
Fontes: OpenAI Harness Engineering, Anthropic Demystifying Evals, Phil Schmid (HuggingFace) The Importance of Agent Harness in 2026, Martin Fowler Harness Engineering, LangChain Agent Frameworks.





