Pare de competir por modelos: em 2026, a chave para o sucesso dos agentes de IA é o Harness

@servasyy_ai
CHINÊShá 3 meses · 29 de mar. de 2026
281K
745
146
37
1.5K

TL;DR

Este artigo explora a Engenharia de Harness, o framework essencial para escalar agentes de IA. Ele detalha três pilares — loops de avaliação, restrições arquiteturais e governança de memória — para transformar modelos brutos em sistemas confiáveis.

Você já passou por essa situação?

O mesmo Claude, o mesmo GPT-4o — uma pessoa usa para escrever 1 milhão de linhas de código em 5 meses, enquanto outra não consegue nem fazê-lo funcionar de forma estável por duas horas.

Os modelos são idênticos, mas os resultados são mundos de diferença.

Onde está o problema?

Recentemente, li vários artigos da OpenAI, Anthropic, Martin Fowler e Phil Schmid, e descobri que todos estão falando sobre a mesma coisa.

Eles chamam isso de Harness Engineering.

Simplificando, é construir um "sistema operacional" para o seu Agente.

Primeiro, Entenda o que é um Harness

huangserva - inline image

Phil Schmid fez uma ótima analogia em um post no blog da HuggingFace.

Pense em um sistema de Agente como um computador.

O modelo é a CPU, fornecendo poder de processamento bruto. A janela de contexto é a RAM, armazenando coisas temporariamente. O Agente é o aplicativo rodando sobre eles.

Então, qual é o sistema operacional?

O Harness é o sistema operacional.

Sem um SO, até a CPU mais poderosa é apenas um chip. Você não consegue digitar em um chip.

Da mesma forma, sem um Harness, até o modelo mais inteligente é apenas uma caixa de bate-papo. Se você o deixar executar uma tarefa complexa por uma hora, e se ele esquecer o contexto? Quem o impede de escrever código de baixa qualidade? E se ele cometer um erro e nem perceber?

Esses não são problemas que você resolve "trocando para um modelo mais inteligente."

Martin Fowler disse algo que ficou comigo: Harnesses podem se tornar "modelos de serviço" no futuro. Assim como você inicia um novo projeto hoje com um modelo de serviço, você iniciará um novo Agente com um modelo de Harness.

Acho que essa previsão tem grandes chances de se concretizar.

Por que Explodiu de Repente em 2026?

huangserva - inline image

Porque os modelos agora são fortes o suficiente.

Em 2024, todo mundo competia para ver qual modelo era mais inteligente. Em 2026, a diferença entre os modelos de ponta se tornou muito pequena. Se você der o mesmo problema para Claude e GPT, as pontuações deles diferem por apenas alguns pontos.

Mas se você os deixar trabalhar por 8 horas seguidas, a diferença aparece.

Essa diferença não está no modelo em si; está no "harness" que o cerca.

A equipe Codex da OpenAI tem uma estatística impressionante. Eles usaram o Codex para construir um produto completo — 5 meses, 1 milhão de linhas de código, zero linhas escritas à mão. Durante todo o processo, eles descobriram que o gargalo não era mais "se o modelo consegue escrever código."

O gargalo era se os humanos conseguiam revisar o código rápido o suficiente.

A velocidade de saída do modelo ultrapassou a velocidade de revisão humana. Neste ponto, qual é a utilidade de otimizar o modelo? Você deve otimizar o processo de revisão, o controle de qualidade e as restrições arquiteturais.

É isso que o Harness faz.

Os Três Pilares

huangserva - inline image

Então, o que um Harness realmente contém?

Depois de ler esses artigos, descobri que, embora os termos variem, existem três pilares centrais.

1. Ciclo Fechado de Avaliação

Isso é o que a Anthropic mais enfatiza.

A ideia central é simples: Um Agente não pode se autoavaliar.

Pense nisso: se um estagiário termina um relatório e você pergunta como ele se saiu, ele vai dizer "está ok." Você precisa de uma pessoa independente para avaliar.

A Anthropic chama isso de "Desenvolvimento Orientado por Avaliação." Primeiro, defina o que significa "ir bem", depois deixe o Agente fazer, e finalmente, tenha um avaliador independente para pontuar.

Desenvolvimento Orientado por Avaliação é a versão para Agentes do TDD. Escreva os testes primeiro, depois o código. Só que aqui, os "testes" são para o Agente.

O avaliador não olha apenas para o código. Ele realmente opera o produto — usando Playwright para clicar em botões, preencher formulários e executar testes — e então julga com base em critérios claros.

Há um caso fascinante aqui.

O Opus 4.5 da Anthropic encontrou uma brecha em uma política de reserva durante um teste de reserva de voo, encontrando uma solução melhor que a resposta padrão.

Mas o avaliador marcou como "falha."

Por quê? Porque o avaliador não esperava uma solução tão criativa. Havia apenas uma resposta padrão, e como o Agente encontrou uma melhor, ele foi penalizado.

Essa história mostra duas coisas: primeiro, os Agentes são inteligentes o suficiente para encontrar soluções que os humanos não pensaram. Segundo, o ciclo de avaliação não está apenas verificando o Agente; ele também está verificando a própria avaliação. Se seu avaliador for muito rígido, ele se torna o gargalo.

Outro dado: o Opus 4.5 inicialmente marcou 42% no CORE-Bench. Depois que corrigiram bugs de pontuação e relaxaram as restrições do scaffold, a pontuação saltou para 95%.

Muitas vezes, não é que o modelo não seja bom o suficiente; é que seu Harness tem problemas.

Usando esse método, a Anthropic fez um Agente construir um jogo completo em 6 horas por US$ 200.

2. Restrições Arquiteturais

Essa é a especialidade da equipe Codex da OpenAI.

Você diz a um estagiário "o código precisa ser em camadas", ele concorda com a cabeça e, em seguida, escreve a lógica da UI diretamente na camada do banco de dados.

Falar é inútil.

A abordagem da OpenAI é impor mecanicamente via linters e CI. Código que viola regras arquiteturais é rejeitado imediatamente, sem nem chegar à revisão.

A divisão em camadas deles é assim: Types → Config → Service → UI. Cada camada só pode depender da camada acima dela, nunca o contrário. Essa regra não está apenas escrita em um documento; está escrita em um linter para verificação automática.

Melhor ainda, esses linters são gerados pelo próprio Codex.

O Agente escreve suas próprias regras e depois as segue.

Martin Fowler disse após ler o artigo da OpenAI:

"Aumentar a confiança e a confiabilidade requer restringir o espaço de soluções. Isso significa abrir mão de parte da flexibilidade para 'gerar qualquer coisa'."

Quanto mais restrições, mais confiável.

Parece contraintuitivo, mas os dados falam. A LangChain fez um experimento: sem mudar o modelo, apenas mudando o Harness, a taxa de aprovação no Terminal Bench 2.0 saltou de 52,8% para 66,5%. A Vercel foi além, deletando 80% das ferramentas do Agente, resultando em menos etapas, mais velocidade e melhores resultados.

Menos ferramentas geralmente levam a um desempenho melhor — essa conclusão tem sido repetidamente verificada no campo de Agentes.

3. Governança de Memória

Esse pilar é menos discutido, mas acho que é o mais importante a longo prazo.

A PrismerCloud fez um trabalho profundo nessa direção.

O problema é: quando vários Agentes compartilham uma base de conhecimento, o Agente A escreve uma experiência, e o Agente B a lê como verdade. Mas e se o Agente A estiver errado?

A alucinação de um Agente pode poluir todos os Agentes através da base de conhecimento compartilhada.

A abordagem da PrismerCloud é construir um "Mecanismo de Evolução." Cada experiência do Agente é primeiro registrada como um "sinal." Uma vez verificados, os sinais são destilados em "genes," que são continuamente otimizados com base nos resultados reais.

Simplificando, genes são conhecimento verificado e eficaz. Se não foi verificado, não conta.

Há uma estatística interessante: 3 linhas de prompt mais um sistema de memória têm um desempenho aproximadamente equivalente a 200 linhas de prompts especialistas cuidadosamente elaborados. Além disso, o primeiro evolui, enquanto o segundo é estático.

Isso significa que, se seu sistema de memória for bom, você não precisa de prompts complexos. O Agente vai melhorar naturalmente com o tempo.

Bônus: Resistência à Entropia

Isso não é um pilar independente, mas vale a pena mencionar.

Sistemas de Agente naturalmente se degradam com o tempo. Documentos expiram, arquiteturas são contornadas e bases de conhecimento se enchem de informações desatualizadas.

A abordagem da OpenAI é executar periodicamente um "Agente de Refatoração" para escanear inconsistências em documentos e violações arquiteturais. Eles disseram o melhor:

"Quando um Agente enfrenta dificuldades, tratamos isso como um sinal: descubra o que está faltando, alimente de volta no código-base e sempre deixe o Codex escrever a correção."

Quando um Agente tem problemas, não conserte apenas o Agente — conserte o Harness. Essa mentalidade é a chave.

Quem Está Fazendo Isso?

huangserva - inline image

O campo está dividido em dois caminhos: projetos de código aberto que você pode usar hoje e práticas internas de empresas comerciais das quais você só pode aprender a metodologia.

Projetos de Código Aberto: Prontos para Usar

LangChain DeepAgents: Provavelmente o projeto de código aberto mais próximo de um "Claude Code universal." Planejamento, operações de arquivo, delegação de subagentes, compressão automática de contexto — pronto para uso imediato. 115k estrelas no GitHub.

DeerFlow 2.0: Da ByteDance. Código aberto em março, alcançou 39k estrelas em um mês. Ele se autodenomina um "SuperAgent Harness." É uma reescrita completa do v1 com execução em sandbox, memória persistente e sistemas de habilidade baseados em LangGraph.

OpenHands: Especializado em Agentes de codificação. Alcançou 77,6% no SWE-bench Verified. É independente de modelo e usa Laminar para observabilidade, rastreando cada ação do Agente.

SWE-agent: Da Princeton e Stanford. Foca em aperfeiçoar o desenvolvimento "orientado por avaliação."

Goose: Código aberto pela Block (Square/Cash App). Um Agente geral na máquina que pode instalar dependências, executar testes e gerenciar arquivos.

PrismerCloud: Foca em governança de memória e no mecanismo de evolução. É a solução mais madura para prevenir a poluição por alucinação em sistemas multiagente.

Cognee: Um mecanismo de memória orientado por grafo de conhecimento para Agentes que ajuda a estabelecer conexões semânticas entre dados.

Práticas Comerciais: Aprenda a Metodologia

Claude Code + Agent SDK: O benchmark da Anthropic para um Harness geral. Não é apenas para codificação; eles o usam para pesquisa, criação de vídeos e anotações.

OpenAI Codex: A prática definitiva em restrições arquiteturais. 1 milhão de linhas de código sem escrita manual, dependendo de linters autogerados e revisões por pares de Agentes.

Uma Lição Que Ficou Comigo

huangserva - inline image

Rich Sutton escreveu um artigo clássico chamado "The Bitter Lesson." A essência é que métodos gerais que alavancam computação sempre superam métodos específicos projetados por humanos a longo prazo.

Essa lição está sendo comprovada novamente no campo de Agentes.

A Manus refez seu Harness 5 vezes em 6 meses. A LangChain reestruturou a arquitetura 3 vezes em um ano. A Vercel deletou 80% de suas ferramentas.

Construa para Deletar.

A "lógica inteligente" que você escreve hoje pode estar obsoleta amanhã quando o modelo for atualizado. Sua arquitetura deve ser modular e pronta para ser descartada.

Phil Schmid disse algo que vale a pena lembrar:

"A vantagem competitiva não é mais o prompt; são as trajetórias capturadas pelo seu Harness. Cada sucesso e fracasso são dados para treinar a próxima geração."

Quanto mais tempo seu Harness funcionar e mais trajetórias ele acumular, mais forte seu Agente se torna. Você não consegue alcançar apenas trocando de modelos.

Os Três Estágios

huangserva - inline image

Pense no lugar do Harness na engenharia de IA assim.

Prompt Engineering resolve "o que dizer." Uma interação única.

Context Engineering resolve "o que saber." Fornece referências e histórico.

Harness Engineering resolve "como trabalhar de forma contínua, estável e em escala." Ciclos de avaliação garantem qualidade, restrições arquiteturais garantem regras e governança de memória garantem acúmulo de experiência.

Sem um Harness, um Agente pode lembrar das coisas, mas não tem supervisão, levando ao caos. Quando todas as três camadas estão em vigor, você tem um personagem que pode realmente trabalhar a longo prazo.

OpenAI, Anthropic e LangChain já estão fazendo isso.

Fontes: OpenAI Harness Engineering, Anthropic Demystifying Evals, Phil Schmid (HuggingFace) The Importance of Agent Harness in 2026, Martin Fowler Harness Engineering, LangChain Agent Frameworks.

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind

Mais padrões para decifrar

Artigos virais recentes

Explorar mais artigos virais