ECHO: Terminal-Agenten lernen Weltmodelle kostenlos

Co-written with @VaishShrivas

Wir haben CLI-Agenten beigebracht, Terminal-Antworten während des RL vorherzusagen – zusätzlich zum üblichen GRPO-Verlust auf Aktionen. Die Änderung ist winzig: derselbe Rollout und Forward Pass, aber wir maskieren die Terminal-Output-Tokens nicht mehr. Die Wirkung ist gewaltig: alle Evaluierungen verbessern sich, und die resultierenden Modelle lernen messbar, wie das Terminal funktioniert.

CLI-Agenten können ein Terminal-Modell umsonst lernen – und es nutzen, um besser zu handeln!

Das ist ECHO: ein hybrides Ziel, das auf beiden Seiten der Interaktion trainiert: was der Agent schreibt und was das Terminal zurückschreibt.

Lest das vollständige Paper und den Code auf SkyRL.

Wenn du zu beschäftigt bist, den ganzen Beitrag zu lesen, hier ist, was wir gefunden haben:

Standard-Agent-RL verwirft die Antwort der Umgebung. GRPO trainiert auf Aktions-Token und maskiert Terminal-Antworten, obwohl sie bereits im Kontext sind, bereits durch das Modell laufen und Ground-Truth-Signale darüber sind, wie die Aktionen des Agenten die Umgebung beeinflusst haben.
ECHO behebt dies, indem es auf beiden Seiten der Interaktion trainiert. Es behält den üblichen GRPO-Verlust auf Aktions-Token bei und fügt einen einfachen Cross-Entropy-Verlust der Umgebung auf Terminal-Output-Token hinzu. Es sind nur ein paar Codezeilen auf jedem GRPO-Trainer. Gleicher Rollout und Forward Pass, nur eine andere Maske über den Logits.
ECHO funktioniert und ist kostenlos! ECHO verbessert Qwen3-8B, OpenThinker-Agent-v1-SFT und Qwen3-14B bei jedem von uns getesteten Benchmark. ECHO trainiert auch bis zu 2,3-mal schneller auf die gleiche Leistung. TerminalBench-2.0 pass@1 verdoppelt sich fast bei 8B (2,7 → 5,2) und 14B (5,2 → 10,8).
ECHO lehrt Terminal-Dynamiken! Bei nicht gesehenen Trajektorien sinkt die Cross-Entropie der Umgebungs-Token mit ECHO stark und bewegt sich mit einfachem GRPO kaum. Direkter Beweis, dass ECHO dem Modell beibringt, wie das Terminal tatsächlich reagiert. Dieselben Checkpoints, die Terminal-Outputs besser vorhersagen, lösen auch mehr Aufgaben.
ECHO kann einen Expertenlehrer ersetzen. Ausgehend von einem Basis-Qwen3-8B ohne Experten-Demonstrationen erreicht ECHO fast das, was GRPO nach SFT auf Experten-Demonstrationen erreicht.
ECHO ermöglicht Agenten Selbstverbesserung ohne Verifier-Belohnungen! Ohne Verifier-Belohnungen erlaubt ECHO (ohne GRPO) dem Agenten, sich durch bloßes Handeln in der Umgebung und Vorhersage dessen, was passiert, weiter zu verbessern.

Das begann als einfache Frage: Wenn jeder Befehl eine Terminal-Antwort produziert, warum trainiert RL dann nur auf den Befehl?

Vaish hat die ganze Arbeit gemacht, um das herauszufinden. Ich habe ein albernes Labyrinth-Experiment*, eine starke Meinung zum Titel und ein „Heilige Scheiße“ beigesteuert, als sie mir das erste Ergebnis zeigte. Danke an Ahmed Awadallah, dass er uns den Raum – und GPUs – gegeben hat, um Ideen wie diese zu verfolgen, selbst wenn sie nur als Forschungs-Juckreiz beginnen.

Erwähnenswert: Der erste Cluster-Run für ECHO startete am 29. März 😊

Diese Arbeit wurde bei AI Frontiers durchgeführt, einem Boutique-Forschungslabor innerhalb von Microsoft Research.

Wie lernt man kontinuierlich?

Das erste Mal, dass diese Idee auftauchte, war sie motiviert durch eine einfache Frage zur Selbstverbesserung und zum kontinuierlichen Lernen. Wie wird ein Agent besser, nur indem er in der Welt handelt?

Vaish und ich hatten seit letztem Herbst über Selbstverbesserung bei CLI-Agenten gesprochen, also was es bedeuten würde, durch Interaktion mit der Umgebung (aka Terminal) besser zu werden, insbesondere ohne Verifier.

Verifier-freies RL ist ein Problem, an dem Leute seit Jahren arbeiten, und die meisten Versuche haben das gleiche Problem: Woher kommt die Aufsicht, wenn es keine Belohnung gibt?

Etwa zur gleichen Zeit führte ein alberner Twitter-Post von mir zu einem Gespräch mit @willccbb, in dem wir wieder über kontinuierliches Lernen diskutierten. Während dieses Gesprächs sagte ich etwas Albernes wie:

Vielleicht ist kontinuierliches Lernen, auf dem zu trainieren, was dir die Umgebung als Antwort auf deine Aktionen zurückgibt.

Das sollte dem Modell doch etwas beibringen, oder?

Stellt sich heraus: Ja!

Die Welt ist eine Verlustfunktion!

Wenn ein Agent in einer Umgebung handelt, ist die Antwort der Umgebung auf diese Aktion immer wahr.

Ein Beispiel aus der physischen Welt: Wenn du einen Lichtschalter umlegst, geht das Licht an oder nicht. Wenn nicht, ist das eine legitime Antwort: Es sagt dir etwas über die Glühbirne, die Verkabelung oder den Sicherungskasten usw. In jedem Fall ist das, was zurückkommt, ein kleines Stück Information darüber, wie sich die Welt aufgrund deiner Aktionen verändert hat. Du bist nicht dem vollständigen Mechanismus ausgesetzt, wie Elektrizität, Schalter und Glühbirnen funktionieren, aber du siehst das Ergebnis. Ist das Licht angegangen? Und das reicht aus, um ein mentales Modell zu entwickeln, wie das Umlegen von Schaltern Lichter einschaltet.

Das Terminal funktioniert ähnlich.

Die Ausgabe nach einem bash-Befehl ist eine kleine Zusammenfassung, wie sich der Zustand des Computers/Containers nach dem Befehl geändert hat. Du siehst stdout, stderr, Exit-Codes, Dateilistungen usw. Du siehst nicht den Kernel-Zustand oder den Prozessbaum oder irgendetwas sehr Detailreiches.

Was du zurückbekommst, ist eine niedrigdimensionale Projektion dessen, was im Hintergrund passiert ist – und das ist es auch, was der CLI-Agent verwenden wird, um eine nächste Aktion in Richtung der Aufgabe zu wählen, die er erreichen will. Und wie beim Lichtschalter ist das genug Signal, um ein mentales Modell – oder wenn man so will, ein Weltmodell – davon zu entwickeln, wie das System sich verhält.

Das Beste daran ist, dass die Terminal-Ausgabe, die wiederum eine Reflexion der Zustandsänderung des Systems ist, ein Aufsichtssignal ist, das dir bei jedem Schritt kostenlos berechnet wird.

Cool!

Das Problem ist, dass standardmäßiges Agent-RL (z. B. GRPO in SkyRL) Gradienten nur durch Aktions-Token schiebt und Terminal-Output-Token ignoriert. Obwohl die Terminal-Ausgabe bereits im Kontext ist. Das Modell beachtet sie, der Forward Pass berechnet Logits dafür, aber der Trainer maskiert sie aus dem Verlust.

Was für eine Verschwendung guter Token 😊

Also, was wäre, wenn wir das nicht täten?

Das Modell ist bereits auf diese Token konditioniert. Es produziert bereits eine Wahrscheinlichkeitsverteilung über sie. Eine Cross-Entropie-Verlust hinzuzufügen kostet im Wesentlichen nichts.

Und wenn wir es tun … hat das Modell einen Grund, zu lernen, wie das Terminal sich tatsächlich verhält, und kann daher in sich selbst ein implizites Modell des Systems aufbauen, auf das es einwirkt. Um vorherzusagen, was ls zurückgibt, muss das Modell verfolgen, welche Dateien es gerade erstellt hat, was wo lebt usw.

Wie es Ilya formulierte:

Das nächste Token gut vorherzusagen bedeutet, dass du die zugrundeliegende Realität verstehst, die zur Erstellung dieses Tokens geführt hat.

In unserem Setting würde das bedeuten: Ein Agent, der gut darin ist, Terminal-Ausgaben vorherzusagen, hat in einem kleinen, aber realen Sinne ein implizites Modell des Terminals aufgebaut.

Wie bringen wir den Agenten also dazu, Terminal-Ausgaben vorherzusagen?

ECHO: Lerne ein Modell der Welt, ohne dafür zu bezahlen

Ein Terminal-Agent-Rollout verwebt bereits zwei Token-Ströme: die Aktions-Token des Agenten und die Beobachtungs-Token der Umgebung. Standard-GRPO wendet Verlust nur auf die Aktions-Token an.

Das ist besonders verschwenderisch, weil Terminal-Belohnungen spärlich, verzögert und binär sind. In unserem Qwen3-8B-Setting sind weniger als 15 % der On-Policy-Rollouts erfolgreich. Aber fehlgeschlagene Trajektorien sind keine fehlgeschlagenen Daten: Sie enthalten immer noch Dateilistungen, Fehler, Logs, Stacktraces, grep-Ausgaben und andere Konsequenzen der Agentenbefehle.

Unsere Methode ist die peinlichst einfache Art, aus diesen Konsequenzen zu lernen 😊

Wir fügen einen längen-normalisierten Cross-Entropie-Verlust auf Umgebungs-Beobachtungs-Token hinzu, zusammen mit dem standardmäßigen GRPO-Verlust auf Aktions-Token. ECHO ist das hybride Ziel:

Dabei sind Actions die Positionen der Agentenaktionen und Observations die Positionen der Terminal-Ausgaben.

Ein paar technische Kleinigkeiten:

ECHO lernt on-policy. Anstatt auf einem eingefrorenen Satz von Terminal-Transkripten des Basismodells oder eines Lehrers zu trainieren, lernt ECHO von Terminal-Antworten, die das aktuelle Modell während des RL produziert. Wenn der Agent besser wird, erkundet er neue Teile der Umgebung und erhält frische Aufsicht von neuen Aktion→Beobachtungs-Übergängen. Bessere Policen erzeugen besseres Feedback; bessere Feedback-Vorhersage gibt der Policy bessere Aktions-Priors. Eine Schleife! Wie lustig!
Im gemeinsamen Ziel ist λ wichtig. Wenn es sehr klein ist, formt der Umgebungsverlust das Modell nicht stark. Wenn zu groß, kann die Policy optimieren für vorhersagbare Ausgaben statt Aufgabenfortschritt. Muss ausbalanciert werden!
Die Ziel-Token sind wichtig. Wir trainieren auf der tatsächlichen Terminal-Ausgabe, nicht auf Harness-Warnungen. Warnungen sind leicht zu memorieren; das nützliche Signal ist die tatsächliche Terminal-Antwort – Dateinamen, Stacktraces und Fehlermeldungen.

Und was kostet das?

Ein aufmerksamer Leser könnte fragen:

Ist der Rückwärtsdurchlauf nicht teurer, wenn man Gradienten an mehr Token-Positionen zurückpropagiert?

Fast nicht. Der teure Teil von Backprop sind die Matmuls durch Attention- und MLP-Schichten, und die laufen über dieselbe Token-Sequenz, unabhängig davon, welche Ausgabepositionen zum Verlust beitragen. Die Logits an jeder Antwortposition sind bereits für GRPO berechnet. Die Aktions-Maske und die Beobachtungs-Maske sammeln einfach verschiedene Teilmengen davon für verschiedene Verlustterme.

Halt hier kurz inne: Wir haben einen World-Modeling-Verlust hinzugefügt, und die Kosten sind im Grunde NULL! Keine extra Rollouts, kein Lehrermodell und kein zusätzlicher Forward Pass.

Hilft ECHO dabei, einen besseren CLI-Agenten zu trainieren?

Wir haben den saubersten möglichen Vergleich bei Multi-Turn-Terminal-Aufgaben durchgeführt: gleiche Modelle, gleiches GRPO-Rezept, gleiche Aufgaben, gleiches Rollout- und Turn-Budget, gleiche Anzahl Trainingsschritte. Belohnung=1, wenn der Agent die Testfälle nach n Turns besteht, 0, wenn er scheitert.

Der einzige Unterschied ist, ob Terminal-Output-Token auch in den Verlust eingehen.

Die pinken Kurven sind ECHO und die blaugrünen GRPO. Über Modellgrößen und Evaluierungsausschnitte hinweg ist die Antwort dieselbe: Das Hinzufügen von Umgebungsvorhersage macht den Agenten wesentlich besser.

ECHO verbessert die Leistung durchgehend bei allen drei zurückgehaltenen Validierungssets – die pinken Kurven trennen sich früh von den blaugrünen und bleiben im Allgemeinen oben.

ECHO lernt auch wesentlich schneller: ECHO erreicht die GRPO-Leistung nach 500 Schritten auf Terminal-Bench Lite 280 Schritte früher! Eine 2,3-fache Beschleunigung und es steigt weiter 😊

Diese Ergebnisse untermauern unsere Intuition hinter ECHO. GRPO trainiert nur mit spärlichen, binären Ergebnis-Belohnungen. Für schwierige Domänen wie Terminal-Aufgaben, bei denen die Erfolgsrate für kleine Modelle niedrig ist, bedeutet dies wenig oder gar kein Signal für viele Aufgaben.

ECHO macht das Training viel probeneffizienter, indem es fehlgeschlagene Aktionen in Aufsicht umwandelt. Selbst wenn eine Aktion die Aufgabe nicht löst, lehrt die Terminal-Antwort das Modell dennoch, was diese Aktion verursacht hat! Und die Vorhersage der Konsequenzen fehlgeschlagener Aktionen kann dem Agenten helfen, bessere zu wählen.

Wenn du lieber die Zahlen über alle Evaluierungen hinweg sehen möchtest, dieselbe Geschichte in Tabellenform:

Schau dir die letzte Zeile in jedem Block an: ECHO. TerminalBench-2.0 pass@1 verdoppelt sich fast bei 8B (2,7 → 5,2) und 14B (5,2 → 10,8). Und das ist wichtig: nicht durch extra Daten, Rollouts, ein Lehrermodell oder einen anderen Verifier. Der Rollout enthielt bereits die Terminal-Antwort. ECHO lernt einfach daraus.

„Leistung verdoppelt sich fast ohne zusätzliche Kosten“ ist ein Satz, den man im Laufe seiner Forschungskarriere sehr selten liest 😊.

ECHO übertrifft GRPO-Leistung bei allen Benchmarks und Modellgrößen deutlich, ist viel probeneffizienter und kostet im Grunde nichts. Du lernst ein Weltmodell, während sich deine Policy verbessert, was ihr hilft, sich schneller zu verbessern.

Skeptiker könnten jedoch einwenden: Lernst du wirklich ein Weltmodell?

Mal sehen!

Lernt ECHO tatsächlich Terminal-Dynamiken?

Wir werden hier ein wenig vorsichtig sein, weil die World-Modeling-Community manchmal etwas intensiv sein kann.

Wir werden nicht behaupten, dass ECHO ein Weltmodell im stärksten Sinne lernt. Aber wir werden behaupten, dass ECHO eine Policy trainiert, deren versteckte Zustände etwas darüber aufgenommen haben, wie das Terminal sich verhält, und deren Fähigkeit, vorherzusagen, was das Terminal tun wird, messbar verbessert wurde.

Wenn man Ilyas Zitat umkehrt, erhält man eine falsifizierbarere Version. Für unser Setting wäre es etwa so:

Wenn das Modell Terminal-Dynamiken gelernt hat, muss es gut darin sein, Terminal-Ausgaben vorherzusagen.

Denn es gibt keine andere Möglichkeit, konsequent hohe Wahrscheinlichkeiten den richtigen Token zuzuweisen. Ein Modell, das ein besserer Vorhersager ist, ist informationstheoretisch ein besserer Kompressor des Systems, das es vorhersagt.

Die Frage wird also empirisch: Macht ECHO das Modell tatsächlich zu einem besseren Vorhersager von Terminal-Ausgaben?

Ja. Und zwar deutlich.

Um diesen Test sauber zu machen, verwenden wir ein stärkeres Lehrermodell Qwen 3 32B (nicht in unseren Trainingsläufen verwendet), um Trajektorien für jedes unserer Validierungssets zu generieren. Dann haben wir unsere Start-Policies, mit GRPO trainierte Policies und mit ECHO trainierte Policies evaluiert und gemessen, wie „überrascht“ jedes Modell von den resultierenden Terminal-Output-Token war.

Das Muster ist auf jedem Panel dasselbe: GRPO ändert die Cross-Entropie der Umgebungs-Token kaum im Vergleich zur Start-Policy. ECHO senkt sie stark.

Also werden wir nicht „Weltmodell“ mit großem W sagen. Aber wir werden Folgendes sagen:

ECHO produziert Policies, die messbar besser darin sind, Terminal-Dynamiken zu komprimieren, und zwar auf Trajektorien, die sie nicht selbst generiert haben.

Das ist die operative Version der Behauptung, die der Titel macht, und die Version, die vollständig verteidigbar ist.

Überraschender Befund 1: ECHO reduziert die Abhängigkeit von Experten-SFT

Ein gängiges Rezept für Agent-RL ist: zuerst Experten-Trajektorien von einem stärkeren Modell verhaltensklonen, dann RL laufen lassen. Das ist besonders üblich für Terminal-Agenten, bei denen die Belohnung spärlich und der Aktionsraum riesig ist.

In unserem Setting ist die Experten-SFT-Baseline OpenThoughts-Agent-v1-SFT (OT-SFT): Qwen3-8B feinabgestimmt auf Terminal-Agenten-Demonstrationen, die von einem stärkeren GLM-4.6-Lehrer generiert wurden.

Also fragten wir: Wie viel von diesem Experten-SFT-Vorteil kann ECHO zurückgewinnen, ohne den Lehrer zu verhaltensklonen?

Kann ECHO dich überspringen lassen, Experten-SFT zu machen? In unserem Setting meistens ja!

Diese Abbildung vergleicht drei Läufe: einfaches GRPO auf dem Basismodell, ECHO auf dem Basismodell und GRPO auf dem SFT-Modell (SFT + GRPO). Im Verhältnis zur Lücke zwischen GRPO und SFT+GRPO (z. B. dem Gewinn durch Start von SFT) holt ECHO 104 % des Gewinns bei ITD, 89 % bei Terminal Bench Lite (TBLite) und 50 % bei TerminalBench-2.0 (TB2) pass@1 auf.

Das Ergebnis deutet darauf hin, dass ein großer Teil des Werts von Experten-SFT darin bestehen könnte, dem Modell eine Interaktions-Prior beizubringen, nicht nur eine Expertenstrategie-Prior. Experten-Demonstrationen zeigen sowohl, wie man sich wie ein Terminal-Agent verhält – Dateien inspizieren, Tests ausführen, Tracebacks folgen usw. – als auch, was ein Experte in bestimmten Zuständen tun würde. ECHO imitiert diese Expertenentscheidungen nicht. Stattdessen trainiert es das Modell, die Terminal-Konsequenzen seiner eigenen Aktionen vorherzusagen, sodass es lernt, welche Befehle nützlichen Zustand offenlegen, welche Fehler diagnostisch sind und welche Terminal-Output-Token Fortschritt signalisieren. Bessere Strategien können dann durch Interaktion statt Nachahmung entstehen.

Das hilft auch, die Benchmark-Aufteilung zu interpretieren. Bei ITD und TBLite erreicht ECHO fast Experten-SFT, was darauf hindeutet, dass ein Großteil des SFT-Vorteils von einem besseren Modell der Terminal-Interaktion herrührt. Bei TB2 holt ECHO immer noch satte 50 % der Lücke ohne Demonstrationen auf. Die verbleibende Lücke ist konsistent damit, dass TB2 schwieriger und verteilungsmäßig weiter vom Trainingsset entfernt ist.

Wir würden dies nicht als feste Obergrenze betrachten: Breiteres oder längeres Training auf TB2-ähnlichen Aufgaben sollte den Agenten weiter verbessern.

Die Schlussfolgerung ist also nicht, dass Experten-SFT veraltet ist, sondern dass ein Großteil dessen, was Experten-SFT einem bringt, ein besseres Modell der Terminal-Interaktion sein könnte, und dass dieser Teil direkt von der Umgebung gelernt werden kann.

Fazit: Das Terminal ist der Lehrer!

Überraschender Befund 2: Ein Funken Selbstverbesserung ohne Belohnungen

Bisher war ECHO GRPO mit einem zusätzlichen Umgebungsverlust. Der Verifier sagt dem Agenten immer noch, ob er die Aufgabe gelöst hat, und GRPO aktualisiert das Modell auf Aktions-Token. Also Standard-RL-Setup mit einem kleinen extra Term.

Aber wenn ECHO der Policy tatsächlich etwas darüber beibringt, wie das Terminal sich verhält, dann brauchen wir vielleicht das Verifier-Signal gar nicht.

Wir fragen: Was passiert, wenn wir den Verifier ausschalten? Keine Belohnungen, von denen wir lernen können, nur das:

Das heißt, das Modell handelt, beobachtet, aktualisiert nur durch Vorhersage der Terminal-Ausgaben als Konsequenz seiner eigenen Aktionen.

Das sollte die Aufgabenleistung eigentlich nicht verbessern. Es gibt kein Label, das sagt, welche Aktion gut war. Wenn die Policy besser wird, muss es daran liegen, dass das Lernen, das Terminal vorherzusagen, indirekt die Aktions-Priors der Policy umformt.

Also haben wir es versucht!

Wir nahmen unseren stärksten Qwen3-8B+ECHO-Checkpoint, entfernten den GRPO-Term vollständig und trainierten für 100 weitere Schritte auf zurückgehaltenen Aufgaben, nur mit dem Cross-Entropie-Verlust der Umgebung. Die Frage war, ob das Modell sich bei OOD-Aufgaben, die es noch nie gesehen hatte, verbessern könnte, allein durch Interaktion mit der Umgebung und Vorhersage dessen, was zurückkommt.

Hat diese verrückte Idee funktioniert? Irgendwie schon!

Auf val100 (In-Distribution): +3,8 pp. Auf ITD: +5,2 pp. Auf PyTerm (ein zurückgehaltenes OOD-Set von Python-lastigen Terminal-Aufgaben): +10,0 pp nach Filterung auf saubere Tool-Call-Trajektorien.

Umgebungs-only-Training verbessert die Policy, wenn die Terminal-Ausgabe eine nützliche Aufsicht ist. Kein Belohnungssignal, das Modell trainiert nur, die von seinen eigenen Aktionen verursachten Ausgaben vorherzusagen, also hängen Gewinne davon ab, ob diese Ausgaben nützliche Dynamiken offenlegen.

Auf val100, das nah an der Trainingsmischung ist, ist der Gewinn real, aber klein: +3,8 pp vor Sättigung. Die Policy hat die meisten lokalen Dynamiken bereits während des ECHO-Trainings gelernt.

Auf ITD produziert die schwächere Start-Policy verrauschte Trajektorien – ungültige Befehle, Parse-Fehler, Sackgassenschleifen. Filterung auf saubere Rollouts entrauscht das Signal und ergibt +5,2 pp.

Allein saubere Trajektorien reichen jedoch nicht. Dieselbe Filterung verbesserte TBLite nicht konsistent, während PyTerm von einer ähnlichen Erfolgsrate startete, aber unter demselben Rezept verbessert wurde – was darauf hindeutet, dass der Engpass nicht nur die Stärke der Policy ist. Der entscheidende Unterschied ist, wie informativ die Beobachtungen sind: Python-Aufgaben geben dichtes aktionsgekoppeltes Feedback – Code → Traceback → Fix – während breitere Terminal-Aufgaben den Zustand indirekter durch Dateien, Konfigurationen und mehrstufige Einrichtung offenlegen.

Wir glauben, dass Verifier-freie Anpassung möglich ist: Sobald RL eine anständig explorierende Policy produziert hat, kann der Agent sich manchmal allein aus Konsequenzen weiter verbessern – aber nur, wenn seine Rollouts sauber sind und das Terminal-Feedback informativ ist. Das IST der überraschende Teil. Nicht, dass der Agent sich perfekt selbst verbessert, sondern dass er sich überhaupt selbst verbessert, allein durch Handeln und Vorhersagen, was zurückkommt.

Wo das uns hint lässt

ECHOs Kernlektion ist einfach: Agent-Rollouts enthalten mehr Aufsicht als nur die endgültige Belohnung, und wir sollten sie nutzen.

Jeder Befehl, den ein Agent ausführt, produziert eine Terminal-Antwort – stdout, Fehler, Traces, Dateien, Logs usw. – und Standard-RL verwendet diese Token nur als Kontext für die nächste Aktion. ECHO macht sie zu Trainingszielen. Kein Lehrermodell, extra Rollouts oder separates Weltmodell nötig. Wir hören einfach auf, die Umgebungs-Token wegzuwerfen, die bereits im Transkript sind.

Diese kleine Änderung führte zu drei überraschenden Ergebnissen: stärkere RL-Leistung, viel weniger Abhängigkeit von Experten-SFT und in manchen Settings Verifier-freie Selbstverbesserung allein durch Umgebungsinteraktion. Wir denken nicht, dass dies bedeutet, dass Belohnungen oder Demonstrationen überflüssig sind. Experten-Trajektorien lehren immer noch Strategie, und Verifier liefern das sauberste Aufgaben-Level-Signal. Aber ECHO deutet darauf hin, dass zwischen „Imitiere den Experten“ und „Warte auf spärliche Belohnung“ eine dichte, wenig genutzte Aufsichtsquelle liegt: die Konsequenzen der eigenen Aktionen des Agenten.

Die breitere Idee ist eine Fortsetzung der Hilfsvorhersage, die eine lange Geschichte im RL hat, und neuere Arbeiten haben World-Modeling-Ziele für LLM-Agenten wiederbelebt, z. B. Agent Learning via Early Experience verwendet Aktion-Konsequenz-Signal als Pre-RL-Phase, VAGEN fügt ein World-Modeling-Belohnung für VLM-Agenten hinzu, RWML vortrainiert auf Next-State-Vorhersage, und CWM mitteltrainiert ein Code-Modell auf Beobachtungs-Aktions-Trajektorien. ECHO ist die Online-, in-der-RL-Schleife, CLI-gewürzte Version derselben Idee.

Wie weit kann diese Idee gehen?

Der nächste Schritt ist, dieses Umgebungssignal potenter zu machen – und zu testen, wie weit es generalisiert. ECHO verwendet rohe Terminal-Ausgaben, weil sie bereits im Rollout sind, aber das beste Lernziel könnte eine sauberere und kompaktere Repräsentation sein: Zusammenfassungen oder aufgabenrelevante Ansichten des Zustands. Auch: Welche Beobachtungen sollten wir trainieren? Wann sollten wir Trajektorien filtern? Wie sollten wir Umgebungsvorhersage gegen Policy-Optimierung gewichten? Kann dieselbe Idee über Terminals hinaus funktionieren: für Browser-Agenten, Multi-Tool-Systeme, langfristige Code-Agenten oder benutzerseitige Assistenten, bei denen Follow-ups, Korrekturen und Präferenzen eine andere Form von Interaktionsfeedback sind?

Unsere Wette ist, dass überall dort, wo ein Agent handelt und die Welt in Token antwortet, diese Antwort-Token – oder bessere Repräsentationen davon – Teil des Lernsignals sein sollten. ECHO ist die einfachste Version dieser Idee, die uns einfiel, und wir vermuten, dass eine Form der Environment-Token-Vorhersage bis Ende 2026 Standard in Agent-RL-Trainern sein wird.

Lest das vollständige Paper und den Code auf SkyRL.

Probiert ECHO aus und erzählt uns, wie viel schneller euer Agent trainiert hat.

Fußnote: Ein Labyrinth-Weltmodell auf meinem Laptop trainieren … irgendwie

Erinnerst du dich, als ich sagte, ich hätte „ein albernes Labyrinth-Experiment“ beigesteuert? Hier ist das alberne Labyrinth-Experiment

Das Setup war eine winzige Mini-Version von ECHO: Ein Gitterlabyrinth in einem winzigen Terminal. Der Agent (ein 10M Transformer in einer Schleife) gibt eine Richtung vor – hoch, runter, links, rechts – und das Terminal antwortet mit der Position des Agenten in Bezug auf seine „Nachbarn“ (es ist im Grunde ein Pfadfindungsproblem in einem 2D-Gitter) und der Entfernung zum Ziel. Der Rollout sieht also genau (für kleine Werte von „genau“) wie ein CLI-Agent-Rollout aus, nur viel einfacher 😊: Aktion → Umgebungsantwort → Aktion → Umgebungsantwort usw.

Ich habe zwei Bedingungen auf einem von Grund auf neu trainierten 10M-Param-Transformer getestet: 1) nur auf die Aktions-Token trainieren 2) auf die Aktions-Token und die Antwort des Terminals (Nachbarn, Entfernung usw.) trainieren. Alle trainiert auf frischen 6×6 / 7×7 / 8×8 Labyrinthen

Ist dieses Labyrinth-Ding ein Nature-Paper? Nein. Aber: Ich denke, es gibt einen Punkt, den ich immer wieder mache, der sich immer wieder verallgemeinern lässt.

Fast jede saubere Idee hat einen Mikrokosmos: eine verkleinerte Version, die man an einem Abend auf dem Laptop laufen lassen kann, die einem sagt, ob die Idee es wert ist, skaliert zu werden.

Das Labyrinth hat nicht bewiesen, dass ECHO funktionieren würde. Es gab mir genug Überzeugung, Vaish eine Teams-Nachricht zu schicken, anstatt die Idee zu vergessen. Es stellte sich heraus, dass Vaish unabhängig um dieselbe Idee herumkreiste, und als ihr erster Cluster-Run mit Ergebnissen zurückkam, war ich begeistert und wirklich überrascht. Das ECHO-Labyrinth hatte angedeutet, dass die Richtung richtig war, aber es hätte nicht die Verdopplung der TerminalBench-Ergebnisse, die Rückgewinnung des größten Teils von Experten-SFT oder die Selbstverbesserung ohne Belohnungen vorhersagen können. Das waren Vaishs Ergebnisse. „Irgendwie ein 6×6-Labyrinth lösen“ und „Verdopplung auf TerminalBench“ sind sehr unterschiedliche epistemische Zustände.

Aber der Sinn dieses Nachtrags ist nicht, dass der Laptop das Cluster-Experiment ersetzt. Der Punkt ist, dass die meisten meiner Ideen falsch sind und das Laptop-Experiment (mit Hilfe von Claude Code und Codex) mir sagt, welche ich fallen lassen soll, bevor sie jemand anderem Zeit kosten. Hin und wieder überlebt eine Idee, und wenn das der Fall ist, kann sie sich vielleicht das Recht auf die Zeit eines Mitarbeiters und auf GPUs verdienen.

ECHO ist eine davon.

Wie lernt man kontinuierlich?

Die Welt ist eine Verlustfunktion!

ECHO: Lerne ein Modell der Welt, ohne dafür zu bezahlen

Hilft ECHO dabei, einen besseren CLI-Agenten zu trainieren?

Lernt ECHO tatsächlich Terminal-Dynamiken?

Überraschender Befund 1: ECHO reduziert die Abhängigkeit von Experten-SFT

Überraschender Befund 2: Ein Funken Selbstverbesserung ohne Belohnungen

Wo das uns hint lässt

Fußnote: Ein Labyrinth-Weltmodell auf meinem Laptop trainieren … irgendwie

Use YouMind to read viral articles deeply

Aktuelle virale Artikel

Scaling Laws, Honestly

No Foreign Card Needed: Two Steps to Securely Subscribe to Claude Codex and Set Up a Private VPN

I Gave My Second Brain 1,500 Conversations and It Changed Everything

Why Can't We Meet Deadlines? The Causes and Solutions Identified by a Nobel Laureate in 1979

60 Claude Opus 4.8 Workflows That Make Money While You Sleep

Anthropic engineers 8x output. Here's the context engineering system behind it.

ECHO: Terminal-Agenten lernen Weltmodelle kostenlos

Wie lernt man kontinuierlich?

Die Welt ist eine Verlustfunktion!

ECHO: Lerne ein Modell der Welt, ohne dafür zu bezahlen

Hilft ECHO dabei, einen besseren CLI-Agenten zu trainieren?

Lernt ECHO tatsächlich Terminal-Dynamiken?

Überraschender Befund 1: ECHO reduziert die Abhängigkeit von Experten-SFT

Überraschender Befund 2: Ein Funken Selbstverbesserung ohne Belohnungen

Wo das uns hint lässt

Fußnote: Ein Labyrinth-Weltmodell auf meinem Laptop trainieren … irgendwie

Use YouMind to read viral articles deeply

Verwandle dein Markdown in einen sauberen 𝕏-Artikel

Aktuelle virale Artikel

Scaling Laws, Honestly

No Foreign Card Needed: Two Steps to Securely Subscribe to Claude Codex and Set Up a Private VPN

I Gave My Second Brain 1,500 Conversations and It Changed Everything

Why Can't We Meet Deadlines? The Causes and Solutions Identified by a Nobel Laureate in 1979

60 Claude Opus 4.8 Workflows That Make Money While You Sleep

Anthropic engineers 8x output. Here's the context engineering system behind it.