Hast du diese Situation schon einmal erlebt?
Derselbe Claude, dasselbe GPT-4o – eine Person nutzt es, um in 5 Monaten 1 Million Zeilen Code zu schreiben, während eine andere es nicht einmal für zwei Stunden stabil zum Laufen bringt.
Die Modelle sind identisch, aber die Ergebnisse liegen Welten auseinander.
Wo liegt das Problem?
Ich habe kürzlich eine Reihe von Artikeln von OpenAI, Anthropic, Martin Fowler und Phil Schmid gelesen und festgestellt, dass sie alle über dasselbe sprechen.
Sie nennen es Harness Engineering.
Einfach ausgedrückt: Es geht darum, ein „Betriebssystem" für deinen Agenten zu bauen.
Zuerst: Verstehen, was ein Harness ist

Phil Schmid hat in einem HuggingFace-Blogbeitrag einen großartigen Vergleich gebracht.
Stell dir ein Agent-System wie einen Computer vor.
Das Modell ist die CPU und liefert die reine Rechenleistung. Der Kontextfenster ist der RAM und speichert Dinge temporär. Der Agent ist die darauf laufende Anwendung.
Was ist dann das Betriebssystem?
Der Harness ist das Betriebssystem.
Ohne Betriebssystem ist selbst die leistungsstärkste CPU nur ein Chip. Du kannst auf einem Chip nicht tippen.
Ähnlich ist es ohne Harness: Selbst das intelligenteste Modell ist nur ein Chat-Fenster. Wenn du es eine Stunde lang eine komplexe Aufgabe ausführen lässt – was, wenn es den Kontext vergisst? Wer hindert es daran, Müllcode zu schreiben? Was, wenn es einen Fehler macht und es nicht einmal merkt?
Das sind keine Probleme, die du durch „Wechsel zu einem intelligenteren Modell" löst.
Martin Fowler hat etwas gesagt, das mir im Gedächtnis geblieben ist: Harnesses könnten in Zukunft zu „Service-Vorlagen" werden. So wie du heute ein neues Projekt mit einer Service-Vorlage startest, wirst du einen neuen Agenten mit einer Harness-Vorlage starten.
Ich denke, diese Vorhersage wird sich wahrscheinlich bewahrheiten.
Warum explodiert das Thema plötzlich im Jahr 2026?

Weil die Modelle jetzt stark genug sind.
Im Jahr 2024 kämpfte jeder darum, wessen Modell intelligenter ist. Bis 2026 ist der Abstand zwischen den Top-Modellen sehr gering geworden. Wenn du Claude und GPT dasselbe Problem gibst, liegen ihre Ergebnisse nur wenige Punkte auseinander.
Aber wenn du sie 8 Stunden am Stück arbeiten lässt, zeigt sich der Unterschied.
Dieser Unterschied liegt nicht im Modell selbst, sondern im „Harness", der es umgibt.
Das Codex-Team von OpenAI hat eine verblüffende Statistik. Sie haben mit Codex ein komplettes Produkt gebaut – 5 Monate, 1 Million Zeilen Code, null Zeilen von Hand geschrieben. Während des gesamten Prozesses stellten sie fest, dass der Engpass nicht mehr darin lag, „ob das Modell Code schreiben kann".
Der Engpass war, ob Menschen den Code schnell genug überprüfen konnten.
Die Ausgabegeschwindigkeit des Modells hat die menschliche Überprüfungsgeschwindigkeit übertroffen. Was nützt es an diesem Punkt, das Modell zu optimieren? Du solltest den Überprüfungsprozess, die Qualitätskontrolle und die architektonischen Einschränkungen optimieren.
Das macht der Harness.
Die drei Säulen

Was beinhaltet ein Harness eigentlich?
Nachdem ich diese Artikel gelesen habe, habe ich festgestellt, dass die Begriffe zwar variieren, es aber drei Kernbereiche gibt.
1. Evaluierungs-Kreislauf
Das betont Anthropic am meisten.
Die Kernidee ist einfach: Ein Agent kann sich nicht selbst benoten.
Denk mal darüber nach: Wenn ein Praktikant einen Bericht fertigstellt und du ihn fragst, wie er war, sagt er „ganz okay". Du brauchst eine unabhängige Person zur Bewertung.
Anthropic nennt das „Evaluierungsgetriebene Entwicklung". Zuerst definieren, was „gut gemacht" bedeutet, dann den Agenten arbeiten lassen und schließlich von einem unabhängigen Evaluator bewerten lassen.
Evaluierungsgetriebene Entwicklung ist die Agent-Version von TDD. Schreibe zuerst die Tests, dann den Code. Nur dass die „Tests" hier für den Agenten sind.
Der Evaluator schaut nicht nur auf den Code. Er bedient das Produkt tatsächlich – klickt mit Playwright auf Schaltflächen, füllt Formulare aus und führt Tests durch – und urteilt dann anhand klarer Kriterien.
Es gibt einen faszinierenden Fall dazu.
Anthropics Opus 4.5 fand während eines Flugbuchungstests eine Gesetzeslücke in der Buchungsrichtlinie und entdeckte eine Lösung, die besser war als die Standardantwort.
Aber der Evaluator bewertete es als „Fehlschlag".
Warum? Weil der Evaluator eine so kreative Lösung nicht erwartet hatte. Es gab nur eine Standardantwort, und weil der Agent eine bessere gefunden hatte, wurde er bestraft.
Diese Geschichte zeigt zwei Dinge: Erstens sind Agenten intelligent genug, um Lösungen zu finden, an die Menschen nicht gedacht haben. Zweitens überprüft der Evaluierungs-Kreislauf nicht nur den Agenten; er überprüft auch die Evaluierung selbst. Wenn dein Evaluator zu starr ist, wird er zum Engpass.
Ein weiterer Datenpunkt: Opus 4.5 erzielte zunächst 42 % bei CORE-Bench. Nachdem sie Bewertungsfehler behoben und die Scaffold-Einschränkungen gelockert hatten, sprang die Punktzahl auf 95 %.
Oft liegt es nicht daran, dass das Modell nicht gut genug ist; sondern daran, dass dein Harness Probleme hat.
Mit dieser Methode ließ Anthropic einen Agenten in 6 Stunden für 200 $ ein komplettes Spiel bauen.
2. Architektonische Einschränkungen
Das ist die Spezialität des OpenAI Codex-Teams.
Du sagst einem Praktikanten „der Code muss geschichtet sein", er nickt und schreibt dann sofort UI-Logik in die Datenbankschicht.
Reden hilft nicht.
OpenAIs Ansatz ist es, dies mechanisch über Linter und CI durchzusetzen. Code, der gegen architektonische Regeln verstößt, wird sofort abgelehnt, ohne überhaupt eine Überprüfung zu erhalten.
Ihre Code-Schichtung sieht so aus: Typen → Konfiguration → Service → UI. Jede Schicht kann nur von der darüber liegenden Schicht abhängen, niemals umgekehrt. Diese Regel steht nicht nur in einem Dokument; sie ist in einem Linter für die automatische Überprüfung hinterlegt.
Noch besser: Diese Linter werden selbst von Codex generiert.
Der Agent schreibt seine eigenen Regeln und befolgt sie dann.
Martin Fowler sagte nach der Lektüre des OpenAI-Artikels:
„Vertrauen und Zuverlässigkeit zu erhöhen, erfordert, den Lösungsraum einzuschränken. Das bedeutet, auf etwas von der Flexibilität zu verzichten, ‚alles generieren zu können'."
Je mehr Einschränkungen, desto zuverlässiger.
Es klingt kontraintuitiv, aber die Daten sprechen für sich. LangChain hat ein Experiment durchgeführt: Ohne das Modell zu ändern, nur durch Änderung des Harness, sprang die Bestehensquote bei Terminal Bench 2.0 von 52,8 % auf 66,5 %. Vercel ging noch weiter und löschte 80 % der Agent-Tools, was zu weniger Schritten, höherer Geschwindigkeit und besseren Ergebnissen führte.
Weniger Tools führen oft zu besserer Leistung – diese Schlussfolgerung wurde im Agent-Bereich immer wieder bestätigt.
3. Gedächtnisverwaltung
Diese Säule wird weniger diskutiert, aber ich denke, sie ist langfristig die wichtigste.
PrismerCloud hat in diesem Bereich tiefgehende Arbeit geleistet.
Das Problem ist: Wenn mehrere Agenten eine Wissensdatenbank teilen, schreibt Agent A eine Erfahrung auf, und Agent B liest sie als Wahrheit. Aber was, wenn Agent A falsch lag?
Die Halluzination eines Agenten kann über die gemeinsame Wissensdatenbank alle Agenten verseuchen.
PrismerClouds Ansatz ist es, eine „Evolutions-Engine" zu bauen. Jede Agent-Erfahrung wird zunächst als „Signal" aufgezeichnet. Sobald sie verifiziert ist, werden Signale zu „Genen" destilliert, die basierend auf tatsächlichen Ergebnissen kontinuierlich optimiert werden.
Einfach ausgedrückt: Gene sind verifiziertes, effektives Wissen. Wenn es nicht verifiziert ist, zählt es nicht.
Es gibt eine interessante Statistik: 3 Zeilen Prompt plus ein Gedächtnissystem funktionieren ungefähr so gut wie 200 Zeilen sorgfältig formulierter Experten-Prompts. Außerdem entwickelt sich Ersteres weiter, während Letzteres statisch ist.
Das bedeutet, wenn dein Gedächtnissystem gut ist, brauchst du keine komplexen Prompts. Der Agent wird sich mit der Zeit von selbst verbessern.
Bonus: Entropieresistenz
Das ist keine eigenständige Säule, aber es ist erwähnenswert.
Agent-Systeme zerfallen mit der Zeit auf natürliche Weise. Dokumente veralten, Architekturen werden umgangen, und Wissensdatenbanken füllen sich mit veralteten Informationen.
OpenAIs Ansatz ist es, regelmäßig einen „Refactoring-Agenten" auszuführen, um nach Dokumenteninkonsistenzen und Architekturverstößen zu suchen. Sie haben es am besten formuliert:
„Wenn ein Agent Schwierigkeiten hat, behandeln wir das als Signal: Finde heraus, was fehlt, speise es zurück in die Codebasis und lass Codex immer die Korrektur schreiben."
Wenn ein Agent Probleme hat, repariere nicht nur den Agenten – repariere den Harness. Diese Denkweise ist entscheidend.
Wer macht das?

Das Feld teilt sich in zwei Pfade: Open-Source-Projekte, die du heute nutzen kannst, und interne Praktiken von Unternehmen, bei denen du nur die Methodik lernen kannst.
Open-Source-Projekte: Bereit zur Nutzung
LangChain DeepAgents: Wahrscheinlich das Open-Source-Projekt, das einem „universellen Claude Code" am nächsten kommt. Planung, Dateioperationen, Unter-Agenten-Delegierung, automatische Komprimierung des Kontexts – alles sofort einsatzbereit. 115k Sterne auf GitHub.
DeerFlow 2.0: Von ByteDance. Im März als Open Source veröffentlicht, erreichte es in einem Monat 39k Sterne. Es bezeichnet sich selbst als „SuperAgent Harness". Es ist eine komplette Neufassung von v1 mit Sandbox-Ausführung, persistentem Gedächtnis und auf LangGraph basierenden Fähigkeitssystemen.
OpenHands: Spezialisiert auf Coding-Agenten. Es erreichte 77,6 % bei SWE-bench Verified. Es ist modellunabhängig und verwendet Laminar für die Beobachtbarkeit, wobei jede Aktion des Agenten nachverfolgt wird.
SWE-agent: Von Princeton und Stanford. Es konzentriert sich auf die Perfektionierung der „evaluierungsgetriebenen" Entwicklung.
Goose: Von Block (Square/Cash App) als Open Source veröffentlicht. Ein allgemeiner On-Machine-Agent, der Abhängigkeiten installieren, Tests ausführen und Dateien verwalten kann.
PrismerCloud: Konzentriert sich auf Gedächtnisverwaltung und die Evolutions-Engine. Es ist die ausgereifteste Lösung zur Verhinderung von Halluzinationskontamination in Multi-Agent-Systemen.
Cognee: Eine wissensgraphgesteuerte Gedächtnis-Engine für Agenten, die hilft, semantische Verbindungen zwischen Daten herzustellen.
Kommerzielle Praktiken: Lerne die Methodik
Claude Code + Agent SDK: Anthropics Maßstab für einen allgemeinen Harness. Es ist nicht nur zum Programmieren gedacht; sie verwenden es für Recherche, Videoerstellung und Notizen.
OpenAI Codex: Die ultimative Praxis in architektonischen Einschränkungen. 1 Million Zeilen Code ohne manuelles Schreiben, basierend auf automatisch generierten Lintern und Agent-Peer-Reviews.
Eine Lektion, die mir im Gedächtnis geblieben ist

Rich Sutton hat ein klassisches Papier mit dem Titel „The Bitter Lesson" geschrieben. Der Kernpunkt ist, dass allgemeine Methoden, die Rechenleistung nutzen, auf lange Sicht immer von Menschen entworfene spezifische Methoden übertreffen.
Diese Lektion wird im Agent-Bereich erneut bestätigt.
Manus hat seinen Harness in 6 Monaten 5 Mal umgebaut. LangChain hat die Architektur in einem Jahr 3 Mal neu strukturiert. Vercel hat 80 % seiner Tools gelöscht.
Baue, um zu löschen.
Die „clevere Logik", die du heute schreibst, könnte morgen überholt sein, wenn das Modell aktualisiert wird. Deine Architektur muss modular und bereit sein, verschrottet zu werden.
Phil Schmid hat etwas gesagt, das es wert ist, in Erinnerung zu bleiben:
„Wettbewerbsvorteil ist nicht mehr der Prompt; es sind die Trajektorien, die dein Harness erfasst. Jeder Erfolg und jeder Misserfolg sind Daten für das Training der nächsten Generation."
Je länger dein Harness läuft und je mehr Trajektorien er ansammelt, desto stärker wird dein Agent. Du kannst nicht aufholen, indem du nur die Modelle wechselst.
Die drei Stufen

Stell dir den Platz des Harness im KI-Engineering so vor.
Prompt Engineering löst „was soll gesagt werden". Eine einzelne Interaktion.
Context Engineering löst „was soll gewusst werden". Bereitstellung von Referenzen und Verlauf.
Harness Engineering löst „wie man kontinuierlich, stabil und skalierbar arbeitet". Evaluierungs-Kreisläufe sichern die Qualität, architektonische Einschränkungen sichern die Regeln, und Gedächtnisverwaltung sichert die Erfahrungsakkumulation.
Ohne Harness kann sich ein Agent zwar an Dinge erinnern, hat aber keine Aufsicht, was zu Chaos führt. Wenn alle drei Ebenen vorhanden sind, hast du einen Charakter, der wirklich langfristig arbeiten kann.
OpenAI, Anthropic und LangChain machen das bereits.
Quellen: OpenAI Harness Engineering, Anthropic Demystifying Evals, Phil Schmid (HuggingFace) The Importance of Agent Harness in 2026, Martin Fowler Harness Engineering, LangChain Agent Frameworks.





