Hai mai vissuto questa situazione?
Lo stesso Claude, la stessa GPT-4o: una persona le usa per scrivere 1 milione di righe di codice in 5 mesi, mentre un'altra non riesce nemmeno a farle funzionare stabilmente per due ore.
I modelli sono identici, ma i risultati sono abissalmente diversi.
Dov'è il problema?
Di recente ho letto un sacco di articoli di OpenAI, Anthropic, Martin Fowler e Phil Schmid, e ho scoperto che parlano tutti della stessa cosa.
La chiamano Harness Engineering.
In parole povere, significa costruire un "sistema operativo" per il tuo Agente.
Prima di tutto, capisci cos'è un Harness

Phil Schmid ha fatto un'ottima analogia in un post sul blog di HuggingFace.
Pensa a un sistema Agente come a un computer.
Il modello è la CPU, che fornisce potenza di calcolo grezza. La finestra di contesto è la RAM, che memorizza le cose temporaneamente. L'Agente è l'applicazione che gira sopra.
Allora, qual è il sistema operativo?
L'Harness è il sistema operativo.
Senza un sistema operativo, anche la CPU più potente è solo un chip. Non puoi scrivere su un chip.
Allo stesso modo, senza un Harness, anche il modello più intelligente è solo una chat box. Se gli affidi un compito complesso per un'ora, cosa succede se dimentica il contesto? Chi gli impedisce di scrivere codice spazzatura? E se commette un errore senza nemmeno rendersene conto?
Questi non sono problemi che risolvi "passando a un modello più intelligente."
Martin Fowler ha detto una cosa che mi è rimasta impressa: gli Harness potrebbero diventare in futuro dei "template di servizio". Proprio come oggi inizi un nuovo progetto con un template di servizio, inizierai un nuovo Agente con un template di Harness.
Penso che questa previsione sia destinata ad avverarsi.
Perché sta esplodendo all'improvviso nel 2026?

Perché i modelli sono ora abbastanza potenti.
Nel 2024, tutti gareggiavano su quale modello fosse più intelligente. Entro il 2026, il divario tra i modelli di alto livello è diventato molto piccolo. Se dai a Claude e GPT lo stesso problema, i loro punteggi sono distanti solo di pochi punti.
Ma se li fai lavorare per 8 ore di fila, il divario emerge.
Questo divario non è nel modello in sé; è nell'"harness" che lo circonda.
Il team di Codex di OpenAI ha una statistica sbalorditiva. Hanno usato Codex per costruire un prodotto completo: 5 mesi, 1 milione di righe di codice, zero righe scritte a mano. Durante tutto il processo, hanno scoperto che il collo di bottiglia non era più "il modello sa scrivere codice?"
Il collo di bottiglia era se gli umani riuscissero a rivedere il codice abbastanza velocemente.
La velocità di output del modello ha superato la velocità di revisione umana. A questo punto, a cosa serve ottimizzare il modello? Dovresti ottimizzare il processo di revisione, il controllo qualità e i vincoli architetturali.
Questo è ciò che fa l'Harness.
I Tre Pilastri

Quindi, cosa contiene effettivamente un Harness?
Dopo aver letto questi articoli, ho scoperto che, sebbene i termini varino, ci sono tre pilastri fondamentali.
1. Ciclo di Valutazione Chiuso
Questo è ciò su cui Anthropic insiste di più.
L'idea centrale è semplice: Un Agente non può valutarsi da solo.
Pensaci: se un tirocinante finisce un rapporto e gli chiedi come è andato, ti dirà "è ok". Hai bisogno di una persona indipendente che lo valuti.
Anthropic lo chiama "Evaluation-Driven Development". Prima definisci cosa significa "fare bene", poi lasci che l'Agente lo faccia, e infine un valutatore indipendente assegna un punteggio.
Evaluation-Driven Development è la versione per Agenti del TDD. Scrivi prima i test, poi il codice. Solo che qui, i "test" sono per l'Agente.
Il valutatore non guarda solo il codice. Opera effettivamente il prodotto, usando Playwright per cliccare pulsanti, compilare moduli ed eseguire test, poi giudica in base a criteri chiari.
C'è un caso affascinante qui.
Opus 4.5 di Anthropic ha trovato una scappatoia in una politica di prenotazione durante un test di prenotazione voli, trovando una soluzione migliore della risposta standard.
Ma il valutatore l'ha segnata come "fallimento".
Perché? Perché il valutatore non si aspettava una soluzione così creativa. C'era solo una risposta standard, e poiché l'Agente ne ha trovata una migliore, è stato penalizzato.
Questa storia mostra due cose: primo, gli Agenti sono abbastanza intelligenti da trovare soluzioni a cui gli umani non hanno pensato. Secondo, il ciclo di valutazione non serve solo a controllare l'Agente; serve anche a controllare la valutazione stessa. Se il tuo valutatore è troppo rigido, diventa il collo di bottiglia.
Un altro dato: Opus 4.5 inizialmente ha ottenuto il 42% su CORE-Bench. Dopo aver corretto bug di punteggio e allentato i vincoli dello scaffold, il punteggio è salito al 95%.
Spesso, non è che il modello non sia abbastanza bravo; è che il tuo Harness ha problemi.
Usando questo metodo, Anthropic ha fatto costruire a un Agente un gioco completo in 6 ore per $200.
2. Vincoli Architetturali
Questa è la specialità del team OpenAI Codex.
Dici a un tirocinante "il codice deve essere a strati", lui annuisce, e poi immediatamente scrive la logica dell'interfaccia utente nel livello del database.
Parlare è inutile.
L'approccio di OpenAI è di imporlo meccanicamente tramite linter e CI. Il codice che viola le regole architetturali viene rifiutato immediatamente, senza nemmeno ricevere una revisione.
La loro stratificazione del codice è così: Types → Config → Service → UI. Ogni strato può dipendere solo dallo strato superiore, mai viceversa. Questa regola non è solo scritta in un documento; è scritta in un linter per il controllo automatico.
Ancora meglio, questi linter sono essi stessi generati da Codex.
L'Agente scrive le proprie regole e poi le segue.
Martin Fowler ha detto dopo aver letto l'articolo di OpenAI:
"Aumentare la fiducia e l'affidabilità richiede di vincolare lo spazio delle soluzioni. Questo significa rinunciare a un po' della flessibilità di 'generare qualsiasi cosa'."
Più vincoli ci sono, più è affidabile.
Sembra controintuitivo, ma i dati parlano. LangChain ha fatto un esperimento: senza cambiare il modello, cambiando solo l'Harness, il tasso di superamento di Terminal Bench 2.0 è passato dal 52,8% al 66,5%. Vercel è andata oltre, eliminando l'80% degli strumenti dell'Agente, con il risultato di meno passaggi, maggiore velocità e risultati migliori.
Meno strumenti spesso portano a prestazioni migliori: questa conclusione è stata ripetutamente verificata nel campo degli Agenti.
3. Governance della Memoria
Questo pilastro è meno discusso, ma penso sia il più importante a lungo termine.
PrismerCloud ha fatto un lavoro approfondito in questa direzione.
Il problema è: quando più Agenti condividono una base di conoscenza, l'Agente A scrive un'esperienza e l'Agente B la legge come verità. Ma se l'Agente A si sbagliava?
L'allucinazione di un Agente può contaminare tutti gli Agenti attraverso la base di conoscenza condivisa.
L'approccio di PrismerCloud è costruire un "Evolution Engine". Ogni esperienza dell'Agente viene prima registrata come un "segnale". Una volta verificata, i segnali vengono distillati in "geni", che vengono continuamente ottimizzati in base ai risultati effettivi.
In parole povere, i geni sono conoscenza verificata ed efficace. Se non è verificata, non conta.
C'è una statistica interessante: 3 righe di prompt più un sistema di memoria funzionano più o meno bene come 200 righe di prompt esperti accuratamente realizzati. Inoltre, il primo si evolve, mentre il secondo è statico.
Questo significa che se il tuo sistema di memoria è buono, non hai bisogno di prompt complessi. L'Agente migliorerà naturalmente nel tempo.
Bonus: Resistenza all'Entropia
Questo non è un pilastro a sé stante, ma merita di essere menzionato.
I sistemi Agente decadono naturalmente nel tempo. I documenti scadono, le architetture vengono aggirate e le basi di conoscenza si riempiono di informazioni obsolete.
L'approccio di OpenAI è eseguire periodicamente un "Agente di Refactoring" per scansionare le incongruenze dei documenti e le violazioni architetturali. Hanno detto la cosa giusta:
"Quando un Agente ha difficoltà, lo trattiamo come un segnale: scopri cosa manca, reimmetilo nel codebase e lascia sempre che sia Codex a scrivere la correzione."
Quando un Agente ha problemi, non limitarti a sistemare l'Agente: sistema l'Harness. Questa mentalità è fondamentale.
Chi lo sta facendo?

Il campo è diviso in due percorsi: progetti open source che puoi usare oggi e pratiche interne di aziende commerciali da cui puoi solo imparare la metodologia.
Progetti Open Source: Pronti all'Uso
LangChain DeepAgents: Probabilmente il progetto open source più vicino a un "Claude Code universale". Pianificazione, operazioni sui file, delega a sotto-agenti, compressione automatica del contesto: tutto pronto all'uso. 115k stelle su GitHub.
DeerFlow 2.0: Di ByteDance. Open-sourced a marzo, ha raggiunto 39k stelle in un mese. Si definisce un "SuperAgent Harness". È una riscrittura completa dalla v1 con esecuzione in sandbox, memoria persistente e sistemi di abilità basati su LangGraph.
OpenHands: Specializzato per Agenti di codifica. Ha raggiunto il 77,6% su SWE-bench Verified. È indipendente dal modello e usa Laminar per l'osservabilità, tracciando ogni azione dell'Agente.
SWE-agent: Di Princeton e Stanford. Si concentra sul perfezionamento dello sviluppo "guidato dalla valutazione".
Goose: Open-sourced da Block (Square/Cash App). Un Agente generico sulla macchina che può installare dipendenze, eseguire test e gestire file.
PrismerCloud: Si concentra sulla governance della memoria e sul motore di evoluzione. È la soluzione più matura per prevenire la contaminazione da allucinazione nei sistemi multi-agente.
Cognee: Un motore di memoria per Agenti basato su grafi di conoscenza che aiuta a stabilire connessioni semantiche tra i dati.
Pratiche Commerciali: Impara la Metodologia
Claude Code + Agent SDK: Il punto di riferimento di Anthropic per un Harness generico. Non è solo per la codifica; lo usano per ricerca, creazione di video e prendere appunti.
OpenAI Codex: La pratica definitiva nei vincoli architetturali. 1 milione di righe di codice senza scrittura manuale, basandosi su linter auto-generati e revisioni tra pari degli Agenti.
Una Lezione Che Mi È Rimasta Impressa

Rich Sutton ha scritto un articolo classico intitolato "The Bitter Lesson". Il succo è che i metodi generali che sfruttano il calcolo superano sempre, a lungo termine, i metodi specifici progettati dall'uomo.
Questa lezione si sta dimostrando vera ancora una volta nel campo degli Agenti.
Manus ha rifatto il suo Harness 5 volte in 6 mesi. LangChain ha ri-architettato 3 volte in un anno. Vercel ha eliminato l'80% dei suoi strumenti.
Costruisci per Eliminare.
La "logica intelligente" che scrivi oggi potrebbe essere obsoleta domani quando il modello verrà aggiornato. La tua architettura deve essere modulare e pronta per essere rottamata.
Phil Schmid ha detto una cosa che vale la pena ricordare:
"Il vantaggio competitivo non è più il prompt; sono le traiettorie catturate dal tuo Harness. Ogni successo e fallimento sono dati per addestrare la generazione successiva."
Più a lungo gira il tuo Harness e più traiettorie accumula, più forte diventa il tuo Agente. Non puoi recuperare terreno semplicemente cambiando modello.
Le Tre Fasi

Pensa al posto dell'Harness nell'ingegneria dell'IA in questo modo.
Prompt Engineering risolve "cosa dire". Una singola interazione.
Context Engineering risolve "cosa sapere". Fornire riferimenti e cronologia.
Harness Engineering risolve "come lavorare in modo continuo, stabile e su larga scala". I cicli di valutazione garantiscono la qualità, i vincoli architetturali garantiscono le regole e la governance della memoria garantisce l'accumulo di esperienza.
Senza un Harness, un Agente potrebbe ricordare le cose ma non ha supervisione, portando al caos. Quando tutti e tre gli strati sono in atto, hai un personaggio che può veramente lavorare a lungo termine.
OpenAI, Anthropic e LangChain lo stanno già facendo.
Fonti: OpenAI Harness Engineering, Anthropic Demystifying Evals, Phil Schmid (HuggingFace) The Importance of Agent Harness in 2026, Martin Fowler Harness Engineering, LangChain Agent Frameworks.





