
Was man bei KI-Agenten lernen, bauen und ignorieren sollte (2026)
AI features
- Views
- 2.5M
- Likes
- 1.6K
- Reposts
- 242
- Comments
- 46
- Bookmarks
- 6.3K
TL;DR
Ein strategischer Deep Dive in die Entwicklung von KI-Agenten, der sich auf dauerhafte Grundlagen wie Context Engineering und MCP konzentriert und Entwicklern rät, Hype-getriebene Frameworks zugunsten robuster Evaluierung und Sandboxing zu meiden.
Reading the DEUTSCH translation
Jeden Tag gibt es ein neues Framework, einen neuen Benchmark, einen neuen "10x"-Launch. Die Frage ist nicht mehr "wie halte ich Schritt". Sie wird zu: Was ist hier eigentlich Signal und was ist Rauschen, das sich als Dringlichkeit verkleidet?
Jeder Roadmap ist einen Monat nach dem Launch veraltet. Das Framework, das du letztes Quartal gemeistert hast, ist jetzt Legacy. Der Benchmark, für den du optimiert hast, wurde ausgespielt und ersetzt. Wir wurden darauf konditioniert, einem konventionellen Pfad zu folgen: einem Stack mit Themen und Levels, einer Abfolge von Jobs und Amtszeiten, einem langsamen Aufstieg. KI hat diese Leinwand neu geschrieben. Jeder mit den richtigen Prompts und dem richtigen Geschmack kann jetzt Arbeit liefern, die früher einen Ingenieur mit 2 Jahren Erfahrung einen Sprint gekostet hätte.
Expertise zählt immer noch. Nichts ersetzt die Erfahrung, Systeme brechen zu sehen, einen Memory-Leak um 2 Uhr morgens zu debuggen, für eine langweilige Entscheidung gegen eine clevere argumentiert zu haben und Recht gehabt zu haben. Diese Art von Geschmack summiert sich. Was aufgehört hat, sich so zu summieren wie früher: die API-Oberfläche des Frameworks dieser Woche zu kennen. In sechs Monaten wird sie anders sein. Die Leute, die in zwei Jahren gewinnen, haben sich früh für dauerhafte Primitive entschieden und den Rest an sich vorbeiziehen lassen.
Ich habe zwei Jahre damit verbracht, in diesem Bereich zu bauen, mehrere Angebote über 250.000 $ erhalten und leite jetzt die Technik bei einem Unternehmen im Stealth-Modus. Das ist, was ich jemandem schicken würde, der fragt: "Worauf sollte ich mich gerade eigentlich konzentrieren?"
Es ist kein Roadmap. Das Agentenfeld hat noch kein Ziel. Die großen Labore iterieren öffentlich, liefern Regressionen an Millionen von Nutzern aus, schreiben Postmortems, patchen live. Wenn das Team hinter Claude Code eine 47%ige Leistungsregression ausliefern und sie erst bemerken kann, nachdem die Benutzergemeinschaft sie gefunden hat, dann ist die Vorstellung, dass es darunter eine stabile Karte gibt, Fiktion. Jeder findet es heraus. Startups florieren, weil die Giganten es auch nicht wissen. Nicht-Programmierer arbeiten mit Agenten zusammen und liefern freitags Dinge aus, die ML-Doktoranden dienstags noch für unmöglich hielten.
Das Interessante an diesem Moment ist, was er mit der Frage der Qualifikationen macht. Der konventionelle Weg hat dich für Qualifikationen optimiert: Abschluss, Junior-Rolle, Senior-Rolle, Staff-Rolle, die langsame Anhäufung von Rang. Das ergab Sinn, als sich das Feld unter dir nicht bewegte. Das Feld bewegt sich jetzt unter allen gleichermaßen. Der Unterschied zwischen einem 22-Jährigen, der öffentlich Agenten-Demos ausliefert, und einem 35-jährigen Senior-Ingenieur ist nicht länger zehn Jahre angesammelte Stack-Meisterschaft. Der 22-Jährige hat die gleiche leere Leinwand wie der Senior, und was sich für beide summiert, ist die Bereitschaft auszuliefern, plus die kleine Liste von Primitiven, die nicht in einem Quartal veralten.
Das ist der neue Rahmen, auf dem dieses ganze Stück aufbaut. Was folgt, ist eine Denkweise darüber, welche Primitive deine Aufmerksamkeit verdienen und welche Launches du vorbeiziehen lassen solltest. Nimm, was passt. Lass, was nicht passt.
Der Filter, der tatsächlich funktioniert
Du kannst mit wöchentlichen Launches nicht mithalten. Du solltest es nicht versuchen. Was du brauchst, ist ein Filter, kein Feed.
Fünf Tests haben sich in den letzten 18 Monaten bewährt. Lass einen Launch durch sie laufen, bevor du ihn an deinen Stack lässt.
Wird das in zwei Jahren noch wichtig sein? Wenn es ein Wrapper um ein Frontier-Modell ist, ein CLI-Flag oder "Devin, aber für X", ist die Antwort fast immer nein. Wenn es ein primitives Element ist (ein Protokoll, ein Speichermuster, ein Sandboxing-Ansatz), ist die Antwort öfter ja. Die Halbwertszeit von Wrappern ist kurz. Die Halbwertszeit von Primitiven beträgt Jahre.
Hat jemand, den du respektierst, etwas Reales darauf aufgebaut und ehrlich darüber geschrieben? Marketing-Posts zählen nicht. Postmortems zählen. Ein Blog namens "Wir haben X in der Produktion ausprobiert und hier ist, was kaputt ging" ist zehn Launch-Ankündigungen wert. Das gute Signal in diesem Feld wird immer von jemandem geschrieben, der ein Wochenende dafür geopfert hat.
Erfordert die Einführung, dass du dein Tracing, deine Wiederholungsversuche, deine Konfiguration, deine Authentifizierung wegwirfst? Wenn ja, ist es ein Framework, das versucht, eine Plattform zu sein. Frameworks-die-versuchen-Plattformen-zu-sein haben eine 90%ige Sterblichkeitsrate. Die guten Primitive fügen sich in dein bestehendes System ein, ohne eine Migration zu erzwingen.
Was kostet es dich, das sechs Monate lang auszulassen? Bei den meisten Launches ist die Antwort nichts. In sechs Monaten wirst du mehr wissen. Die Gewinnerversion wird klarer sein. Das ist der Test, der es dir erlaubt, 90% der Launches ohne Angst auszulassen, und derjenige, den die meisten Leute sich weigern durchzuführen, weil Auslassen sich anfühlt, als würde man zurückfallen. Tut es nicht.
Kannst du messen, ob es deinen Agenten tatsächlich hilft? Wenn nicht, rätst du. Teams ohne Evals arbeiten nach Bauchgefühl und liefern Regressionen aus. Teams mit Evals können die Daten entscheiden lassen, ob GPT-5.5 oder Opus 4.7 diese Woche bei ihrer spezifischen Arbeitslast gewinnt.
Wenn du eine einzige Gewohnheit aus diesem ganzen Stück übernimmst, dann mach diese: Wenn etwas Neues startet, schreibe auf, was du in sechs Monaten sehen müsstest, um zu glauben, dass es wichtig ist. Dann komm zurück und überprüfe es. Meistens wird sich die Frage von selbst beantwortet haben, und du hast deine Aufmerksamkeit auf Dinge verwendet, die sich summieren.
Die Fähigkeit hinter diesen Tests ist schwerer zu benennen als jeder einzelne von ihnen. Es ist die Bereitschaft, uncool zu sein in Bezug auf das, was du nicht aufnimmst. Das Framework, das diese Woche auf Hacker News viral geht, wird vierzehn Tage lang eine Armee von Cheerleadern haben, und sie werden alle klug klingen. Sechs Monate später ist die Hälfte dieser Frameworks nicht mehr gewartet und die Cheerleader sind weitergezogen. Die Leute, die sich nicht eingemischt haben, haben ihre Aufmerksamkeit für Dinge gespart, die den Test bestanden haben, langweilig zu sein, nachdem der Launch-Hype vorbei war. Diese Haltung, sich zurückzuhalten, zu beobachten, zu sagen "Ich werde es in sechs Monaten wissen", ist die eigentliche berufliche Fähigkeit in diesem Bereich. Jeder kann Launches lesen. Fast niemand ist gut darin, nicht auf sie zu reagieren.
Was zu lernen
Konzepte. Muster. Die Form der Dinge. Das sind die Ideen, die sich verzinsende Renditen abwerfen. Sie überleben Modellwechsel, Framework-Wechsel, Paradigmenwechsel. Verstehe sie tiefgreifend und du kannst jedes neue Werkzeug an einem Wochenende aufnehmen. Überspringe sie und du wirst ständig oberflächliche Mechanismen neu lernen müssen.
Context Engineering
Die wichtigste Umbenennung der letzten zwei Jahre war die von "Prompt Engineering" zu "Context Engineering". Die Verschiebung ist real, nicht kosmetisch.
Das Modell ist nicht länger etwas, für das du eine clevere Anweisung formulierst. Es ist etwas, für das du bei jedem Schritt einen funktionierenden Kontext zusammenstellst. Dieser Kontext sind Systemanweisungen, Tool-Schemata, abgerufene Dokumente, vorherige Tool-Ausgaben, Scratchpad-Zustand und komprimierter Verlauf auf einmal. Das Verhalten des Agenten ist eine emergente Eigenschaft dessen, was du in das Fenster legst.
Verinnerliche dies: Kontext ist Zustand. Jedes Token irrelevanten Rauschens kostet dich Denkqualität. Kontextfäulnis ist ein echter Produktionsfehler. Bei Schritt acht einer zehnschrittigen Aufgabe kann das ursprüngliche Ziel unter der Tool-Ausgabe begraben sein. Die Teams, die zuverlässige Agenten ausliefern, fassen aktiv zusammen, komprimieren, beschneiden. Sie versionieren ihre Tool-Beschreibungen. Sie cachen die statischen Teile und weigern sich, die Teile zu cachen, die sich ändern. Sie denken über das Kontextfenster so nach, wie ein erfahrener Ingenieur über RAM denkt.
Eine konkrete Art, dies zu fühlen: Nimm einen beliebigen Agenten in der Produktion und aktiviere das vollständige Trace-Logging. Sieh dir den Kontext bei Schritt eins an. Sieh dir den Kontext bei Schritt sieben an. Zähle, wie viele dieser Tokens sich noch lohnen. Beim ersten Mal wirst du verlegen sein. Dann wirst du es reparieren gehen, und derselbe Agent wird merklich zuverlässiger, ohne jede Änderung am Modell oder am Prompt.
Wenn du dazu etwas lesen willst, lies Anthropics "Effective Context Engineering for AI Agents". Dann lies ihren Multi-Agent-Forschungs-Postmortem, der Zahlen dazu liefert, wie sehr Kontextisolierung wichtig wird, sobald du skalierst.
Tool-Design
Tools sind der Punkt, an dem Agenten auf dein Geschäft treffen. Das Modell wählt Tools basierend auf Namen und Beschreibungen aus. Das Modell wiederholt basierend auf Fehlermeldungen. Das Modell scheitert oder hat Erfolg basierend darauf, ob der Vertrag des Tools dem entspricht, was ein LLM gut ausdrücken kann.
Fünf bis zehn gut benannte Tools schlagen zwanzig mittelmäßige. Tool-Namen sollten wie englische Verbphrasen gelesen werden. Beschreibungen sollten enthalten, wann das Tool verwendet werden soll und wann nicht. Fehlermeldungen sollten Feedback sein, auf das das Modell reagieren kann. "Max Tokens 500 überschritten, versuche zuerst zusammenzufassen" schlägt "Fehler: 400 Bad Request" mit großem Abstand. Ein Team in der öffentlichen Forschung berichtete von einer 40%igen Reduzierung der Wiederholungsschleifen, nachdem sie allein ihre Fehlermeldungen umgeschrieben hatten.
Anthropics "Writing tools for agents" ist der richtige Ausgangspunkt. Danach instrumentiere deine eigenen Tools und sieh dir die tatsächlichen Aufrufmuster an. Die größten Gewinne bei der Agentenzuverlässigkeit sind fast immer auf der Tool-Seite. Die Leute stimmen weiterhin Prompts ab und ignorieren den Ort, an dem die eigentliche Hebelwirkung liegt.
Das Orchestrator-Subagent-Muster
Die Multi-Agent-Debatte von 2024 und 2025 endete mit einer Synthese, die jetzt jeder ausliefert. Naive Multi-Agent-Systeme, bei denen mehrere Agenten parallel in einen gemeinsamen Zustand schreiben, scheitern katastrophal, weil sich Fehler summieren. Single-Agent-Schleifen skalieren weiter, als du erwarten würdest. Es gibt eine Multi-Agent-Form, die in der Produktion funktioniert: ein Orchestrator-Agent, der eng abgegrenzte, schreibgeschützte Aufgaben an isolierte Subagenten delegiert und dann ihre Ergebnisse synthetisiert.
So funktioniert Anthropics Forschungssystem. So funktionieren die Subagenten von Claude Code. Es ist das Muster, das Spring AI und die meisten Produktions-Frameworks jetzt standardisieren. Subagenten erhalten kleine, fokussierte Kontexte. Sie können den gemeinsamen Zustand nicht verändern. Der Orchestrator besitzt die Schreibvorgänge.
Cognitions Essay "Don't Build Multi-Agents" und Anthropics "How we built our multi-agent research system" sehen aus wie Gegensätze und sagen dasselbe in unterschiedlichen Vokabularen. Lies beide.
Standardmäßig Single-Agent. Greife nur dann zum Orchestrator-Subagent, wenn der einzelne Agent auf eine echte Wand stößt: Kontextfensterdruck, Latenz durch sequentielle Tool-Aufrufe oder Aufgabenheterogenität, die wirklich von fokussierten Kontexten profitiert. Dies zu bauen, bevor du den Schmerz gespürt hast, liefert Komplexität aus, die du nicht brauchst.
Evals und Goldene Datensätze
Jedes Team, das zuverlässige Agenten ausliefert, hat Evals. Jedes Team, das das nicht tut, hat keine. Das ist die einzige Gewohnheit mit der höchsten Hebelwirkung in diesem Bereich, und es ist das, worin am meisten unterinvestiert wird, was ich in jedem Unternehmen sehe, das ich mir angesehen habe.
Was funktioniert: Ernte deine Produktions-Traces, kennzeichne die Fehler, behandle das als Regressionsset. Füge hinzu, wann immer ein neuer Fehler ausgeliefert wird. Verwende LLM-as-Judge für die subjektiven Teile, exakte Übereinstimmung oder programmatische Prüfungen für den Rest. Führe die Suite vor jeder Prompt-, Modell- oder Tool-Änderung aus. Spotifys Engineering-Blog berichtete, dass ihre Judge-Ebene etwa 25% der Agentenausgaben abweist, bevor sie ausgeliefert werden. Ohne sie hätte eines von vier schlechten Ergebnissen die Nutzer erreicht.
Das mentale Modell, das dies haften lässt: Ein Eval ist ein Unit-Test, der den Agenten ehrlich hält, während sich alles andere darunter ändert. Das Modell bekommt eine neue Version. Das Framework veröffentlicht eine bahnbrechende Änderung. Der Anbieter stellt einen Endpunkt ein. Deine Evals sind das Einzige, was dir sagt, ob dein Agent seinen Job noch macht. Ohne sie schreibst du ein System, dessen Korrektheit vom Wohlwollen eines sich bewegenden Ziels abhängt.
Die Eval-Frameworks (Braintrust, Langfuse evals, LangSmith) sind in Ordnung. Keines davon ist der Engpass. Der Engpass ist, überhaupt einen gekennzeichneten Satz zu haben. Baue das am ersten Tag, bevor du irgendetwas skalierst. Die ersten fünfzig Beispiele können an einem Nachmittag von Hand gekennzeichnet werden. Es gibt keine Ausrede.
Dateisystem-als-Zustand und die Denken-Handeln-Beobachten-Schleife
Für jeden Agenten, der echte mehrschrittige Arbeit leistet, ist die dauerhafte Architektur: denken, handeln, beobachten, wiederholen. Das Dateisystem oder ein strukturierter Speicher als Quelle der Wahrheit. Jede Aktion protokolliert und wiederholbar. Claude Code, Cursor, Devin, Aider, OpenHands, goose. Sie alle haben sich aus einem bestimmten Grund darauf geeinigt.
Das Modell ist zustandslos. Das Harness muss zustandsbehaftet sein. Das Dateisystem ist ein zustandsbehaftetes primitives Element, das jeder Entwickler bereits versteht. Sobald du diesen Rahmen akzeptierst, ergibt sich die gesamte Harness-Disziplin (Checkpointing, Wiederaufnahmefähigkeit, Subagent-Verifizierung, Sandbox-Ausführung) daraus, das Muster ernst zu nehmen.
Das tiefere Ding, das dir das beibringt: Das Harness leistet mehr Arbeit als das Modell in jedem Produktionsagenten, der seine Rechenkosten wert ist. Das Modell wählt die nächste Aktion aus. Das Harness validiert sie, führt sie in einer Sandbox aus, erfasst die Ausgabe, entscheidet, was zurückgespeist wird, entscheidet, wann angehalten wird, entscheidet, wann ein Checkpoint gesetzt wird, entscheidet, wann ein Subagent erzeugt wird. Tausche das Modell gegen ein anderes von ähnlicher Qualität aus und ein gutes Harness liefert immer noch aus. Tausche das Harness gegen ein schlechteres aus und das beste Modell der Welt produziert immer noch einen Agenten, der zufällig vergisst, was er tat.
Wenn du etwas Komplexeres als einen einmaligen Tool-Aufruf baust, ist das Harness der Ort, an dem du deine Zeit verbringen solltest. Das Modell ist eine Komponente darin.
MCP, konzeptionell
Lerne nicht nur, wie man MCP-Server aufruft. Lerne das Modell. Eine saubere Trennung zwischen Agentenfähigkeiten, Tools und Ressourcen, mit einer erweiterbaren Auth- und Transport-Geschichte darunter. Sobald du es verstehst, wird jedes andere "Agenten-Integrations-Framework", das du siehst, wie eine schlechtere Version von MCP aussehen, und du sparst dir die Zeit, jedes einzelne zu evaluieren.
Die Linux Foundation verwaltet es jetzt. Jeder große Modellanbieter unterstützt es. Der Vergleich "USB-C der KI" ist jetzt eher zutreffend als ironisch.
Sandboxing als primitives Element
Jeder Produktions-Coding-Agent läuft in einer Sandbox. Jeder Browser-Agent wurde von indirekter Prompt-Injection getroffen. Jeder Multi-Tenant-Agent hatte irgendwann einen Berechtigungsbereichsfehler. Behandle Sandboxing als primitive Infrastruktur, nicht als eine Funktion, die du hinzufügst, wenn ein Kunde fragt.
Lerne die Grundlagen. Prozessisolierung. Netzwerk-Egress-Kontrollen. Secret-Scoping. Auth-Grenzen zwischen Agent und Tool. Die Teams, die das nach einer Kundensicherheitsüberprüfung nachrüsten, sind die Teams, die den Deal verlieren. Die Teams, die es von Woche eins an einbauen, bestehen die Enterprise-Beschaffung ohne Schwitzen.
Womit zu bauen
Spezifische Auswahl, April 2026. Diese werden sich verschieben, aber langsam. Wähle hier langweilig.
Orchestrierung
LangGraph ist der Produktionsstandard. Ungefähr ein Drittel der großen Unternehmen, die Agenten betreiben, verwenden es. Die Abstraktionen entsprechen der realen Form von Agentensystemen: typisierter Zustand, bedingte Kanten, dauerhafte Workflows, Human-in-the-Loop-Checkpoints. Der Nachteil ist die Ausführlichkeit. Der Vorteil ist, dass die Ausführlichkeit dem entspricht, was du tatsächlich kontrollieren musst, sobald ein Agent in Produktion ist.
Wenn du in TypeScript lebst, ist Mastra die De-facto-Wahl. Sauberstes mentales Modell in diesem Ökosystem.
Wenn dein Team Pydantic liebt und Typsicherheit als erstklassige Bürgerin haben möchte, ist Pydantic AI eine vernünftige Greenfield-Wahl. Es erreichte Ende 2025 v1.0 und die Dynamik ist real.
Für anbietereigene Arbeit (Computer Use, Voice, Echtzeit) verwende Claude Agent SDK oder OpenAI Agents SDK innerhalb deiner LangGraph-Knoten. Versuche nicht, eines davon zum übergeordneten Orchestrator für ein heterogenes System zu machen. Sie sind für ihre Spur optimiert.
Protokollebene
MCP, Punkt. Baue deine Tool-Integrationen als MCP-Server. Konsumiere externe Integrationen auf die gleiche Weise. Das Register hat den Punkt überschritten, an dem du fast immer einen Server finden kannst, bevor du einen bauen musst. Das Verdrahten von benutzerdefinierter Tool-Infrastruktur im Jahr 2026 zahlt eine Steuer für nichts.
Speicher
Wähle nach Autonomiegrad, nicht nach Hype.
Mem0 für Chat-artige Personalisierung. Benutzereinstellungen, leichter Verlauf. Zep für Produktions-Konversationssysteme, in denen sich der Zustand weiterentwickelt und du Entity-Tracking benötigst. Letta, wenn ein Agent über Tage oder Wochen Arbeit hinweg Kohärenz aufrechterhält. Die meisten Teams werden das nicht brauchen. Diejenigen, die es tun, brauchen genau das.
Der Fehler ist, nach einem Speicher-Framework zu greifen, bevor du ein Speicherproblem hast. Beginne mit dem, was dein Kontextfenster halten kann, plus einem Vektor-Store. Füge ein Speichersystem nur hinzu, wenn du die Fehlerart artikulieren kannst, die es löst.
Observability und Evals
Langfuse ist der OSS-Standard. Selbst hostbar, MIT-lizenziert, deckt Tracing, Prompt-Versionierung und grundlegende LLM-as-Judge-Evals ab. Wenn du bereits ein LangChain-Shop bist, integriert LangSmith enger. Braintrust ist die richtige Wahl für forschungsartige Eval-Workflows mit strengen Vergleichen. OpenLLMetry / Traceloop ist die Antwort, wenn du anbieterneutrale OpenTelemetry-Instrumentierung in einem polyglotten Stack benötigst.
Du willst sowohl Tracing als auch Evals. Tracing beantwortet "Was hat der Agent tatsächlich getan?" Evals beantworten "Ist der Agent besser oder schlechter als gestern?" Liefere ohne beides nicht aus. Die Kosten für das blinde Arbeiten sind zehnmal so hoch wie die Kosten für die ordnungsgemäße Verkabelung am ersten Tag.
Laufzeit und Sandbox
E2B für die allgemeine Sandbox-Code-Ausführung. Browserbase (gepaart mit Stagehand) für die Browser-Automation. Anthropic Computer Use, wenn du echte OS-Level-Desktop-Steuerung benötigst. Modal für kurzlebige Bursts. Führe niemals unsandboxte Code-Ausführung durch. Niemals. Die Schadensradius eines einzigen prompt-injizierten Agenten in deiner Produktionsumgebung ist eine Geschichte, die du nicht erzählen willst.
Modelle
Die Benchmark-Jagd ist ermüdend und weitgehend nutzlos. Pragmatisch, im April 2026:
Claude Opus 4.7 und Sonnet 4.6 für zuverlässige Tool-Nutzung, mehrschrittige Kohärenz und anmutige Fehlerbehebung. Sonnet ist der Kosten-Leistungs-Sweetspot für die meisten Arbeitslasten. GPT-5.4 und 5.5, wenn du die stärkste CLI/Terminal-Argumentation benötigst oder in der OpenAI-Infrastruktur lebst. Gemini 2.5 und 3 für langkontextlastige oder multimodale Jobs. DeepSeek-V3.2 oder Qwen 3.6, wenn Kosten wichtiger sind als Spitzenleistung, insbesondere für enge, klar definierte Aufgaben.
Behandle Modelle als austauschbar. Wenn dein Agent nur mit einem Modell funktioniert, ist das ein Geruch, kein Burggraben. Verwende Evals, um zu entscheiden, was bereitgestellt wird. Bewerte jedes Quartal neu, nicht jede Woche.
Was zu überspringen
Dir wird gesagt werden, dass du all dies lernen und damit bauen sollst. Das musst du nicht. Die Kosten für das Überspringen sind gering. Die gesparte Zeit ist groß.
AutoGen und AG2 für die Produktion. Microsofts Framework wurde zur Community-Wartung übergeben, Veröffentlichungen stockten, Abstraktionen entsprechen nicht dem, was Produktionsteams tatsächlich brauchen. In Ordnung für die akademische Erkundung. Verankere kein Produkt darauf.
CrewAI für neue Produktionsbauten. Es ist überall, weil es sich leicht demonstrieren lässt. Ingenieure, die echte Systeme bauen, sind davon abgerückt. Verwende es für Prototypen, wenn du willst. Verpflichte dich nicht dazu.
Microsoft Semantic Kernel, es sei denn, du bist im Microsoft Enterprise Stack gefangen und deine Käufer kümmern sich darum, dass du es bist. Es ist nicht die Richtung, in die sich das Ökosystem bewegt.
DSPy, es sei denn, du optimierst speziell Prompt-Programme in großem Maßstab. Philosophisches Verdienst, Nischenpublikum. Kein allgemeines Agenten-Framework. Wähle es nicht als eines aus.
Eigenständige Code-schreibende Agenten als deine Architekturwahl. Code-als-Aktion ist interessante Forschung. Es ist noch kein Produktionsstandardmuster, und du wirst gegen Tooling- und Sicherheitskämpfe kämpfen, die deine Konkurrenten nicht haben.
"Autonome Agenten"-Pitches. Die AutoGPT- und BabyAGI-Linie ist in Produktform tot. Der ehrliche Rahmen, auf den sich die Branche geeinigt hat, ist "agentisches Engineering": überwacht, begrenzt, evaluiert. Jeder, der 2026 noch einsatzbereite autonome Agenten verkauft, verkauft dir 2023.
Agenten-App-Stores und Marktplätze. Seit 2023 versprochen, nie Enterprise-Traktion erzielt. Unternehmen kaufen keine generischen vorgefertigten Agenten. Sie kaufen vertikale Agenten, die an Ergebnisse gebunden sind, oder sie bauen ihre eigenen. Strukturiere dein Geschäft nicht um einen App-Store-Traum herum.
Horizontale "baue jeden Agenten"-Enterprise-Plattformen als Kunde (Google Agentspace, AWS Bedrock Agents, Microsoft Copilot Studio Tier). Sie werden irgendwann nützlich sein. Im Moment sind sie verwirrend, liefern langsam aus, und die Kauf-gegen-Bauen-Rechnung begünstigt immer noch den Bau des engen Agenten selbst oder den Kauf des vertikalen. Salesforce Agentforce und ServiceNow Now Assist sind Ausnahmen, weil sie gewinnen, indem sie in Workflow-Systeme eingebettet sind, die du bereits verwendest.
SWE-bench- und OSWorld-Bestenlistenjagd. Berkeley-Forscher haben bis 2025 dokumentiert, dass fast jeder öffentliche Benchmark ausgespielt werden kann, ohne die zugrunde liegende Aufgabe zu lösen. Teams verwenden jetzt Terminal-Bench 2.0 und ihre eigenen internen Evals als das eigentliche Signal. Behandle Ein-Zahlen-Benchmark-Sprünge standardmäßig mit Skepsis.
Naive parallele Multi-Agent-Architekturen. Fünf Agenten, die über gemeinsamen Speicher chatten, sehen in einer Demo beeindruckend aus und fallen in der Produktion auseinander. Wenn du kein sauberes Orchestrator-Subagent-Diagramm mit Lese-/Schreibgrenzen auf eine Serviette zeichnen kannst, liefere es nicht aus.
Pro-Sitzplatz-SaaS-Preise für neue Agentenprodukte. Der Markt hat sich zu ergebnis- und nutzungsbasierten Preisen bewegt. Die Preisgestaltung pro Sitzplatz lässt Geld auf dem Tisch und signalisiert Käufern, dass du deinem eigenen Produkt nicht zutraust, Ergebnisse zu liefern.
Das nächste Framework, das du diese Woche auf Hacker News siehst. Warte sechs Monate. Wenn es immer noch wichtig ist, wird es offensichtlich sein. Wenn nicht, hast du dir eine Migration erspart.
Wie man sich tatsächlich bewegt
Wenn du versuchst, Agenten zu übernehmen, nicht nur mit ihnen Schritt zu halten, funktioniert diese Sequenz. Sie ist langweilig. Sie funktioniert.
Wähle ein Ergebnis aus, das bereits wichtig ist. Kein Mondschuss. Kein horizontales "Agentenplattform"-Projekt. Etwas Messbares, das deinem Unternehmen bereits am Herzen liegt. Support-Tickets abwehren. Erste rechtliche Überprüfung entwerfen. Eingehende Leads qualifizieren. Monatliche Berichte erstellen. Der Agent ist erfolgreich, wenn sich dieses Ergebnis bewegt. Das wird dein Eval-Ziel am ersten Tag.
Der Grund, warum dieser Schritt wichtiger ist als alles andere, ist, dass er jede nachfolgende Entscheidung einschränkt. Mit einem bestimmten Ergebnis hört die Frage "welches Framework" auf, philosophisch zu sein. Du wählst das, das dein Ergebnis am schnellsten ausliefert. Die Frage "welches Modell" hört auf, ein Benchmark-Argument zu sein. Du wählst das, von dem deine Evals sagen, dass es bei diesem spezifischen Job funktioniert. Die Frage "brauchen wir Speicher / Subagenten / ein benutzerdefiniertes Harness" hört auf, ein Gedankenexperiment zu sein. Du fügst nur das hinzu, was deine spezifischen Fehlermodi erfordern. Teams, die diesen Schritt überspringen, bauen am Ende horizontale Plattformen, um die niemand gebeten hat. Teams, die ihn ernst nehmen, liefern am Ende einen einzigen engen Agenten aus, der sich in einem Quartal bezahlt macht, und dieser eine ausgelieferte Agent lehrt sie mehr über das Feld als zwei Jahre Lesen.
Richte Tracing und Evals ein, bevor du irgendetwas auslieferst. Wähle Langfuse oder LangSmith. Verdrahte es. Baue einen kleinen goldenen Datensatz von Hand, wenn du musst. Fünfzig gekennzeichnete Beispiele reichen aus, um zu beginnen. Du wirst nicht in der Lage sein, zu verbessern, was du nicht messen kannst. Die Kosten für das spätere Bauen sind ungefähr 10x so hoch wie die Kosten für das Bauen jetzt.
Beginne mit einer Single-Agent-Schleife. Wähle LangGraph oder Pydantic AI. Wähle Claude Sonnet 4.6 oder GPT-5 als Modell. Gib dem Agenten drei bis sieben gut gestaltete Tools. Gib ihm das Dateisystem oder eine Datenbank als Zustand. Liefere an ein kleines Publikum aus. Beobachte die Traces.
Behandle den Agenten als Produkt, nicht als Projekt. Er wird auf Arten scheitern, die du nicht vorhergesehen hast. Diese Fehler sind dein Fahrplan. Baue das Regressionsset aus echten Produktions-Traces. Jede Prompt-Änderung, jeder Modellwechsel, jede Tool-Änderung durchläuft vor der Bereitstellung Evals. Hier investieren die meisten Teams zu wenig. Hierher kommt die meiste Zuverlässigkeit.
Füge Umfang nur hinzu, wenn du ihn dir verdient hast. Subagenten kommen ins Spiel, wenn der Kontext der Engpass ist. Speicher-Frameworks kommen ins Spiel, wenn der Einzelfenster-Kontext nicht halten kann, was du brauchst. Computer Use oder Browser Use kommen ins Spiel, wenn die zugrunde liegenden APIs wirklich nicht da sind. Architekturiere diese nicht vor. Lass die Fehlermodi sie hereinziehen.
Wähle langweilige Infrastruktur. MCP für Tools. E2B oder Browserbase für Sandboxen. Postgres oder welchen Datenspeicher auch immer du bereits für den Zustand betreibst. Deinen bestehenden Auth- und Observability-Stack. Die exotische Infrastruktur ist selten der Gewinn. Die Disziplin ist es.
Beobachte deine Unit Economics von Tag eins an. Kosten pro Aktion. Cache-Trefferquoten. Kosten für Wiederholungsschleifen. Modellaufrufverteilung. Agenten sehen im PoC billig aus und explodieren bei 100-fachem Maßstab, es sei denn, du instrumentierst die Kosten pro Ergebnis von Anfang an. Ein PoC für 0,50 $/Lauf wird bei moderatem Volumen zu 50.000 $/Monat. Teams, die es nicht kommen sehen, bekommen ein CFO-Meeting, das sie nicht genießen.
Bewerte Modelle vierteljährlich neu, nicht wöchentlich. Lege dich für ein Quartal fest. Am Ende des Quartals führe deine Eval-Suite gegen die aktuelle Grenze aus und wechsle, wenn die Daten den Wechsel nahelegen. Du bekommst den Vorteil der Modellverbesserung ohne das Chaos, jeder Veröffentlichung hinterherzujagen.
Die Gezeiten lesen
Konkrete Anzeichen dafür, dass etwas Signal ist:
Ein angesehenes Ingenieurteam schreibt eine Postmortem-Analyse mit Zahlen, nicht nur mit Behauptungen über die Akzeptanz. Es ist ein grundlegendes Bauteil (Protokoll, Muster, Infrastruktur), kein Wrapper oder Bündel. Es arbeitet mit dem zusammen, was Sie bereits betreiben, anstatt es zu ersetzen. Die Beschreibung nennt einen Fehlermodus, den es löst, nicht eine Fähigkeit, die es ermöglicht. Es existiert lange genug, dass ein Blogbeitrag darüber geschrieben wurde, "was nicht funktioniert hat".
Konkrete Anzeichen dafür, dass etwas Rauschen ist:
Demovideos ohne Produktionsfallstudien nach dreißig Tagen. Benchmark-Sprünge, die zu sauber sind, um real zu sein. Beschreibungen, die "autonom", "Agenten-Betriebssystem" oder "jeden Agenten bauen" ohne nähere Erläuterung verwenden. Frameworks, deren Dokumentation davon ausgeht, dass Sie Ihr bestehendes Tracing, Ihre Authentifizierung und Konfiguration wegwerfen. Sternzahlen, die schnell steigen, ohne dass Commits, Releases und Mitwirkende im gleichen Maße zunehmen. Twitter-Geschwindigkeit ohne GitHub-Geschwindigkeit.
Eine nützliche wöchentliche Gewohnheit: Reservieren Sie sich freitags dreißig Minuten für das Feld. Lesen Sie drei Dinge. Den Engineering-Blog von Anthropic. Simon Willisons Notizen. Latent Space. Überfliegen Sie ein oder zwei Postmortems, falls welche veröffentlicht wurden. Überspringen Sie alles andere für die Woche. Sie werden die Dinge kennen, die wichtig sind.
Was Beachtung verdient
Dinge, die in den nächsten zwei Quartalen Aufmerksamkeit verdienen, nicht weil sie garantierte Erfolge sind, sondern weil sich die Frage "Ist das ein Signal?" noch nicht vollständig geklärt hat:
Replit Agent 4's paralleles Forking-Modell. Erster ernsthafter Versuch eines "parallelen Arbeitens mehrerer Agenten", der nicht über gemeinsamen Zustand stolpert. Wenn es sich im großen Maßstab bewährt, könnte sich der Standard von Orchestrator-Unteragent verschieben.
Reife der ergebnisbasierten Preisgestaltung. Die Umsatzverläufe von Sierra und Harvey validieren es innerhalb enger vertikaler Märkte. Die Frage ist, ob es sich außerhalb verallgemeinern lässt oder ein reines Vertikalmodell bleibt.
Fähigkeiten als Verpackungsschicht. Die Verbreitung von AGENTS.md und Fähigkeitsverzeichnissen auf GitHub deutet auf eine aufkommende Art und Weise hin, Agentenfähigkeiten zu verpacken. Ob es sich so standardisieren wird wie MCP für Tools, ist die offene Frage.
Claude Codes Qualitätsrückgang im April 2026 und dessen Postmortem. Ein branchenführender Agent lieferte eine Leistungsverschlechterung von 47 % aus und wurde von Benutzern entdeckt, bevor die interne Überwachung es bemerkte. Das ist eine Lektion darüber, wie unreif die Evaluierungspraktiken für Produktionsagenten immer noch sind, selbst bei den Marktführern. Wenn dies branchenweite Investitionen in bessere Online-Evaluierungen vorantreibt, ist die Korrektur gesund.
Sprache als Standard-Support-Oberfläche. Sierras Sprachkanal hat Text Ende 2025 übertroffen. Wenn sich dieses Muster in anderen vertikalen Märkten durchsetzt, werden die Designbeschränkungen (Latenz, Unterbrechung, Echtzeit-Werkzeugnutzung) zu Prioritäten, und viele aktuelle Architekturen müssen überarbeitet werden.
Open-Model-Agent-Fähigkeiten schließen die Lücke. DeepSeek-V3.2 mit nativem Denken-in-Werkzeugnutzung. Qwen 3.6. Die breitere Open-Source-Landschaft. Das Kosten-Leistungs-Verhältnis für enge Agentenaufgaben verschiebt sich. Der Closed-Source-Standard ist nicht von Dauer.
Jeder dieser Punkte hat eine klare Antwort auf die Frage "Was müsste ich in sechs Monaten sehen, um es zu glauben?". Das ist der Test. Verfolgen Sie die Antwort, nicht die Ankündigungen.
Die unkonventionelle Wette
Jedes Framework, das Sie nicht übernehmen, ist eine Migration, die Sie nicht schulden. Jeder Benchmark, den Sie nicht jagen, ist ein Quartal Fokus, das Sie behalten. Die Unternehmen, die diesen Zyklus gewinnen (Sierra, Harvey, Cursor in ihren jeweiligen Bereichen), haben enge Ziele gewählt, langweilige Disziplin aufgebaut und das Rauschen des Feldes an sich vorbeiziehen lassen.
Der konventionelle Weg war: Wählen Sie einen Stack, meistern Sie ihn jahrelang, klettern Sie eine Leiter hoch. Das funktionierte, als der Stack ein Jahrzehnt lang stabil war. Der Stack ändert sich jetzt jedes Quartal. Die Gewinner haben aufgehört, auf Stack-Meisterschaft zu optimieren, und begannen, auf Geschmack, grundlegende Bauteile und Liefergeschwindigkeit zu optimieren. Sie bauen kleine Dinge in der Öffentlichkeit. Sie lernen durch Ausliefern. Sie werden durch das, was sie bereits gemacht haben, in Räume gezogen. Das Zeugnis ist das Artefakt.
Halten Sie einen Moment inne, denn das ist der eigentliche Punkt dieses ganzen Artikels. Die meisten von uns wurden mit einem Arbeitsmodell großgezogen, das annahm, die Welt stünde lange genug still, damit sich Zeugnisse auszahlen. Sie gingen zur Schule. Sie machten den Abschluss. Sie kletterten die Leiter hoch. Zwei Jahre hier, drei Jahre dort, und langsam wurde der Lebenslauf zu etwas, das Türen öffnete. Diese ganze Maschine setzte eine stabile Branche auf der anderen Seite voraus.
Der Agentenraum hat derzeit keine stabile andere Seite. Die Unternehmen, für die Sie vielleicht arbeiten möchten, sind sechs Monate alt. Die Frameworks, auf denen sie aufbauen, sind achtzehn Monate alt. Die Protokolle darunter sind zwei Jahre alt. Die Hälfte der meistzitierten Beiträge in diesem Bereich wurden von Leuten geschrieben, die vor drei Jahren noch nicht in diesem Bereich waren. Es gibt keine Leiter zum Klettern, weil das Gebäude ständig die Stockwerke wechselt. Was bleibt, wenn die Leiter nicht funktioniert, ist die viel ältere Methode: Machen Sie etwas, stellen Sie es ins Internet, lassen Sie die Arbeit Sie vorstellen. Es ist der unkonventionelle Weg, weil er das Zertifizierungssystem ignoriert. Es ist auch der einzige, der sich in einem sich bewegenden Feld auszahlt.
So sieht die Ära von innen aus. Selbst die Giganten iterieren öffentlich, liefern Regressionen aus, schreiben Postmortems und patchen live. Die Teams, die in diesem Jahr die interessantesten Dinge ausliefern, umfassen Leute, die vor achtzehn Monaten noch nicht in diesem Bereich waren. Nicht-Programmierer kombinieren sich mit Agenten und liefern echte Software aus. Doktoren werden von Bauherren überholt, die die richtigen grundlegenden Bauteile gewählt und angefangen haben zu arbeiten. Die Tore sind offen. Die meisten Leute versuchen immer noch, das Bewerbungsformular zu finden.
Die Fähigkeit, die Sie jetzt eigentlich entwickeln müssen, sind nicht "Agenten". Es ist die Disziplin herauszufinden, welche Arbeit sich in einem Bereich auszahlt, in dem sich die Oberfläche ständig ändert. Kontexttechnik zahlt sich aus. Werkzeugdesign zahlt sich aus. Das Orchestrator-Unteragent-Muster zahlt sich aus. Evaluierungsdisziplin zahlt sich aus. Die "Geschirr"-Denkweise zahlt sich aus. Die API des am Dienstag gestarteten Frameworks zu kennen, tut das nicht. Sobald Sie diese unterscheiden können, hört die wöchentliche Flut von Veröffentlichungen auf, sich wie Druck anzufühlen, und beginnt sich wie Rauschen anzufühlen, das Sie ignorieren können.
Sie müssen nicht alles lernen. Sie müssen die Dinge lernen, die sich auszahlen, und die Dinge überspringen, die das nicht tun. Wählen Sie ein Ergebnis aus. Richten Sie Tracing und Evaluierungen ein, bevor Sie ausliefern. Verwenden Sie LangGraph oder das Äquivalent Ihres Teams. Verwenden Sie MCP. Sandboxen Sie Ihre Laufzeitumgebung. Standardmäßig Einzelagent. Fügen Sie Umfang hinzu, wenn Fehlermodi ihn erfordern. Bewerten Sie Modelle vierteljährlich neu. Lesen Sie freitags drei Dinge.
Das ist das Spielbuch. Der Rest ist Geschmack, Liefergeschwindigkeit und die Geduld, nicht zu jagen, was keine Rolle spielt. Bauen Sie Dinge. Stellen Sie sie ins Internet. Die Ära belohnt Menschen, die das Ding machen, mehr als Menschen, die das Ding beschreiben können. Es gab noch nie ein besseres Fenster, um derjenige zu sein, der es macht.


