Co-written with @VaishShrivas
Wir haben CLI-Agenten beigebracht, Terminal-Antworten wĂ€hrend des RL vorherzusagen â zusĂ€tzlich zum ĂŒblichen GRPO-Verlust auf Aktionen. Die Ănderung ist winzig: derselbe Rollout und Forward Pass, aber wir maskieren die Terminal-Output-Tokens nicht mehr. Die Wirkung ist gewaltig: alle Evaluierungen verbessern sich, und die resultierenden Modelle lernen messbar, wie das Terminal funktioniert.
CLI-Agenten können ein Terminal-Modell umsonst lernen â und es nutzen, um besser zu handeln!
Das ist ECHO: ein hybrides Ziel, das auf beiden Seiten der Interaktion trainiert: was der Agent schreibt und was das Terminal zurĂŒckschreibt.
Lest das vollstÀndige Paper und den Code auf SkyRL.
Wenn du zu beschÀftigt bist, den ganzen Beitrag zu lesen, hier ist, was wir gefunden haben:
- Standard-Agent-RL verwirft die Antwort der Umgebung. GRPO trainiert auf Aktions-Token und maskiert Terminal-Antworten, obwohl sie bereits im Kontext sind, bereits durch das Modell laufen und Ground-Truth-Signale darĂŒber sind, wie die Aktionen des Agenten die Umgebung beeinflusst haben.
- ECHO behebt dies, indem es auf beiden Seiten der Interaktion trainiert. Es behĂ€lt den ĂŒblichen GRPO-Verlust auf Aktions-Token bei und fĂŒgt einen einfachen Cross-Entropy-Verlust der Umgebung auf Terminal-Output-Token hinzu. Es sind nur ein paar Codezeilen auf jedem GRPO-Trainer. Gleicher Rollout und Forward Pass, nur eine andere Maske ĂŒber den Logits.
- ECHO funktioniert und ist kostenlos! ECHO verbessert Qwen3-8B, OpenThinker-Agent-v1-SFT und Qwen3-14B bei jedem von uns getesteten Benchmark. ECHO trainiert auch bis zu 2,3-mal schneller auf die gleiche Leistung. TerminalBench-2.0 pass@1 verdoppelt sich fast bei 8B (2,7 â 5,2) und 14B (5,2 â 10,8).
- ECHO lehrt Terminal-Dynamiken! Bei nicht gesehenen Trajektorien sinkt die Cross-Entropie der Umgebungs-Token mit ECHO stark und bewegt sich mit einfachem GRPO kaum. Direkter Beweis, dass ECHO dem Modell beibringt, wie das Terminal tatsÀchlich reagiert. Dieselben Checkpoints, die Terminal-Outputs besser vorhersagen, lösen auch mehr Aufgaben.
- ECHO kann einen Expertenlehrer ersetzen. Ausgehend von einem Basis-Qwen3-8B ohne Experten-Demonstrationen erreicht ECHO fast das, was GRPO nach SFT auf Experten-Demonstrationen erreicht.
- ECHO ermöglicht Agenten Selbstverbesserung ohne Verifier-Belohnungen! Ohne Verifier-Belohnungen erlaubt ECHO (ohne GRPO) dem Agenten, sich durch bloĂes Handeln in der Umgebung und Vorhersage dessen, was passiert, weiter zu verbessern.
Das begann als einfache Frage: Wenn jeder Befehl eine Terminal-Antwort produziert, warum trainiert RL dann nur auf den Befehl?
Vaish hat die ganze Arbeit gemacht, um das herauszufinden. Ich habe ein albernes Labyrinth-Experiment*, eine starke Meinung zum Titel und ein âHeilige ScheiĂeâ beigesteuert, als sie mir das erste Ergebnis zeigte. Danke an Ahmed Awadallah, dass er uns den Raum â und GPUs â gegeben hat, um Ideen wie diese zu verfolgen, selbst wenn sie nur als Forschungs-Juckreiz beginnen.
ErwĂ€hnenswert: Der erste Cluster-Run fĂŒr ECHO startete am 29. MĂ€rz đ
Diese Arbeit wurde bei AI Frontiers durchgefĂŒhrt, einem Boutique-Forschungslabor innerhalb von Microsoft Research.
Wie lernt man kontinuierlich?
Das erste Mal, dass diese Idee auftauchte, war sie motiviert durch eine einfache Frage zur Selbstverbesserung und zum kontinuierlichen Lernen. Wie wird ein Agent besser, nur indem er in der Welt handelt?
Vaish und ich hatten seit letztem Herbst ĂŒber Selbstverbesserung bei CLI-Agenten gesprochen, also was es bedeuten wĂŒrde, durch Interaktion mit der Umgebung (aka Terminal) besser zu werden, insbesondere ohne Verifier.
Verifier-freies RL ist ein Problem, an dem Leute seit Jahren arbeiten, und die meisten Versuche haben das gleiche Problem: Woher kommt die Aufsicht, wenn es keine Belohnung gibt?
Etwa zur gleichen Zeit fĂŒhrte ein alberner Twitter-Post von mir zu einem GesprĂ€ch mit @willccbb, in dem wir wieder ĂŒber kontinuierliches Lernen diskutierten. WĂ€hrend dieses GesprĂ€chs sagte ich etwas Albernes wie:
Vielleicht ist kontinuierliches Lernen, auf dem zu trainieren, was dir die Umgebung als Antwort auf deine Aktionen zurĂŒckgibt.

Das sollte dem Modell doch etwas beibringen, oder?
Stellt sich heraus: Ja!
Die Welt ist eine Verlustfunktion!
Wenn ein Agent in einer Umgebung handelt, ist die Antwort der Umgebung auf diese Aktion immer wahr.
Ein Beispiel aus der physischen Welt: Wenn du einen Lichtschalter umlegst, geht das Licht an oder nicht. Wenn nicht, ist das eine legitime Antwort: Es sagt dir etwas ĂŒber die GlĂŒhbirne, die Verkabelung oder den Sicherungskasten usw. In jedem Fall ist das, was zurĂŒckkommt, ein kleines StĂŒck Information darĂŒber, wie sich die Welt aufgrund deiner Aktionen verĂ€ndert hat. Du bist nicht dem vollstĂ€ndigen Mechanismus ausgesetzt, wie ElektrizitĂ€t, Schalter und GlĂŒhbirnen funktionieren, aber du siehst das Ergebnis. Ist das Licht angegangen? Und das reicht aus, um ein mentales Modell zu entwickeln, wie das Umlegen von Schaltern Lichter einschaltet.
Das Terminal funktioniert Àhnlich.
Die Ausgabe nach einem bash-Befehl ist eine kleine Zusammenfassung, wie sich der Zustand des Computers/Containers nach dem Befehl geÀndert hat. Du siehst stdout, stderr, Exit-Codes, Dateilistungen usw. Du siehst nicht den Kernel-Zustand oder den Prozessbaum oder irgendetwas sehr Detailreiches.

Was du zurĂŒckbekommst, ist eine niedrigdimensionale Projektion dessen, was im Hintergrund passiert ist â und das ist es auch, was der CLI-Agent verwenden wird, um eine nĂ€chste Aktion in Richtung der Aufgabe zu wĂ€hlen, die er erreichen will. Und wie beim Lichtschalter ist das genug Signal, um ein mentales Modell â oder wenn man so will, ein Weltmodell â davon zu entwickeln, wie das System sich verhĂ€lt.
Das Beste daran ist, dass die Terminal-Ausgabe, die wiederum eine Reflexion der ZustandsÀnderung des Systems ist, ein Aufsichtssignal ist, das dir bei jedem Schritt kostenlos berechnet wird.
Cool!
Das Problem ist, dass standardmĂ€Ăiges Agent-RL (z.âŻB. GRPO in SkyRL) Gradienten nur durch Aktions-Token schiebt und Terminal-Output-Token ignoriert. Obwohl die Terminal-Ausgabe bereits im Kontext ist. Das Modell beachtet sie, der Forward Pass berechnet Logits dafĂŒr, aber der Trainer maskiert sie aus dem Verlust.
Was fĂŒr eine Verschwendung guter Token đ
Also, was wÀre, wenn wir das nicht tÀten?
Das Modell ist bereits auf diese Token konditioniert. Es produziert bereits eine Wahrscheinlichkeitsverteilung ĂŒber sie. Eine Cross-Entropie-Verlust hinzuzufĂŒgen kostet im Wesentlichen nichts.
Und wenn wir es tun ⊠hat das Modell einen Grund, zu lernen, wie das Terminal sich tatsĂ€chlich verhĂ€lt, und kann daher in sich selbst ein implizites Modell des Systems aufbauen, auf das es einwirkt. Um vorherzusagen, was ls zurĂŒckgibt, muss das Modell verfolgen, welche Dateien es gerade erstellt hat, was wo lebt usw.
Wie es Ilya formulierte:
Das nĂ€chste Token gut vorherzusagen bedeutet, dass du die zugrundeliegende RealitĂ€t verstehst, die zur Erstellung dieses Tokens gefĂŒhrt hat.
In unserem Setting wĂŒrde das bedeuten: Ein Agent, der gut darin ist, Terminal-Ausgaben vorherzusagen, hat in einem kleinen, aber realen Sinne ein implizites Modell des Terminals aufgebaut.
Wie bringen wir den Agenten also dazu, Terminal-Ausgaben vorherzusagen?
ECHO: Lerne ein Modell der Welt, ohne dafĂŒr zu bezahlen
Ein Terminal-Agent-Rollout verwebt bereits zwei Token-Ströme: die Aktions-Token des Agenten und die Beobachtungs-Token der Umgebung. Standard-GRPO wendet Verlust nur auf die Aktions-Token an.
Das ist besonders verschwenderisch, weil Terminal-Belohnungen spĂ€rlich, verzögert und binĂ€r sind. In unserem Qwen3-8B-Setting sind weniger als 15âŻ% der On-Policy-Rollouts erfolgreich. Aber fehlgeschlagene Trajektorien sind keine fehlgeschlagenen Daten: Sie enthalten immer noch Dateilistungen, Fehler, Logs, Stacktraces, grep-Ausgaben und andere Konsequenzen der Agentenbefehle.
Unsere Methode ist die peinlichst einfache Art, aus diesen Konsequenzen zu lernen đ
Wir fĂŒgen einen lĂ€ngen-normalisierten Cross-Entropie-Verlust auf Umgebungs-Beobachtungs-Token hinzu, zusammen mit dem standardmĂ€Ăigen GRPO-Verlust auf Aktions-Token. ECHO ist das hybride Ziel:
Dabei sind Actions die Positionen der Agentenaktionen und Observations die Positionen der Terminal-Ausgaben.
Ein paar technische Kleinigkeiten:
- ECHO lernt on-policy. Anstatt auf einem eingefrorenen Satz von Terminal-Transkripten des Basismodells oder eines Lehrers zu trainieren, lernt ECHO von Terminal-Antworten, die das aktuelle Modell wĂ€hrend des RL produziert. Wenn der Agent besser wird, erkundet er neue Teile der Umgebung und erhĂ€lt frische Aufsicht von neuen AktionâBeobachtungs-ĂbergĂ€ngen. Bessere Policen erzeugen besseres Feedback; bessere Feedback-Vorhersage gibt der Policy bessere Aktions-Priors. Eine Schleife! Wie lustig!
- Im gemeinsamen Ziel ist λ wichtig. Wenn es sehr klein ist, formt der Umgebungsverlust das Modell nicht stark. Wenn zu groĂ, kann die Policy optimieren fĂŒr vorhersagbare Ausgaben statt Aufgabenfortschritt. Muss ausbalanciert werden!
- Die Ziel-Token sind wichtig. Wir trainieren auf der tatsĂ€chlichen Terminal-Ausgabe, nicht auf Harness-Warnungen. Warnungen sind leicht zu memorieren; das nĂŒtzliche Signal ist die tatsĂ€chliche Terminal-Antwort â Dateinamen, Stacktraces und Fehlermeldungen.
Und was kostet das?
Ein aufmerksamer Leser könnte fragen:
Ist der RĂŒckwĂ€rtsdurchlauf nicht teurer, wenn man Gradienten an mehr Token-Positionen zurĂŒckpropagiert?
Fast nicht. Der teure Teil von Backprop sind die Matmuls durch Attention- und MLP-Schichten, und die laufen ĂŒber dieselbe Token-Sequenz, unabhĂ€ngig davon, welche Ausgabepositionen zum Verlust beitragen. Die Logits an jeder Antwortposition sind bereits fĂŒr GRPO berechnet. Die Aktions-Maske und die Beobachtungs-Maske sammeln einfach verschiedene Teilmengen davon fĂŒr verschiedene Verlustterme.
Halt hier kurz inne: Wir haben einen World-Modeling-Verlust hinzugefĂŒgt, und die Kosten sind im Grunde NULL! Keine extra Rollouts, kein Lehrermodell und kein zusĂ€tzlicher Forward Pass.
Hilft ECHO dabei, einen besseren CLI-Agenten zu trainieren?
Wir haben den saubersten möglichen Vergleich bei Multi-Turn-Terminal-Aufgaben durchgefĂŒhrt: gleiche Modelle, gleiches GRPO-Rezept, gleiche Aufgaben, gleiches Rollout- und Turn-Budget, gleiche Anzahl Trainingsschritte. Belohnung=1, wenn der Agent die TestfĂ€lle nach n Turns besteht, 0, wenn er scheitert.
Der einzige Unterschied ist, ob Terminal-Output-Token auch in den Verlust eingehen.
Die pinken Kurven sind ECHO und die blaugrĂŒnen GRPO. Ăber ModellgröĂen und Evaluierungsausschnitte hinweg ist die Antwort dieselbe: Das HinzufĂŒgen von Umgebungsvorhersage macht den Agenten wesentlich besser.

ECHO verbessert die Leistung durchgehend bei allen drei zurĂŒckgehaltenen Validierungssets â die pinken Kurven trennen sich frĂŒh von den blaugrĂŒnen und bleiben im Allgemeinen oben.
ECHO lernt auch wesentlich schneller: ECHO erreicht die GRPO-Leistung nach 500 Schritten auf Terminal-Bench Lite 280 Schritte frĂŒher! Eine 2,3-fache Beschleunigung und es steigt weiter đ
Diese Ergebnisse untermauern unsere Intuition hinter ECHO. GRPO trainiert nur mit spĂ€rlichen, binĂ€ren Ergebnis-Belohnungen. FĂŒr schwierige DomĂ€nen wie Terminal-Aufgaben, bei denen die Erfolgsrate fĂŒr kleine Modelle niedrig ist, bedeutet dies wenig oder gar kein Signal fĂŒr viele Aufgaben.
ECHO macht das Training viel probeneffizienter, indem es fehlgeschlagene Aktionen in Aufsicht umwandelt. Selbst wenn eine Aktion die Aufgabe nicht löst, lehrt die Terminal-Antwort das Modell dennoch, was diese Aktion verursacht hat! Und die Vorhersage der Konsequenzen fehlgeschlagener Aktionen kann dem Agenten helfen, bessere zu wÀhlen.
Wenn du lieber die Zahlen ĂŒber alle Evaluierungen hinweg sehen möchtest, dieselbe Geschichte in Tabellenform:

Schau dir die letzte Zeile in jedem Block an: ECHO. TerminalBench-2.0 pass@1 verdoppelt sich fast bei 8B (2,7 â 5,2) und 14B (5,2 â 10,8). Und das ist wichtig: nicht durch extra Daten, Rollouts, ein Lehrermodell oder einen anderen Verifier. Der Rollout enthielt bereits die Terminal-Antwort. ECHO lernt einfach daraus.
âLeistung verdoppelt sich fast ohne zusĂ€tzliche Kostenâ ist ein Satz, den man im Laufe seiner Forschungskarriere sehr selten liest đ.
ECHO ĂŒbertrifft GRPO-Leistung bei allen Benchmarks und ModellgröĂen deutlich, ist viel probeneffizienter und kostet im Grunde nichts. Du lernst ein Weltmodell, wĂ€hrend sich deine Policy verbessert, was ihr hilft, sich schneller zu verbessern.
Skeptiker könnten jedoch einwenden: Lernst du wirklich ein Weltmodell?
Mal sehen!
Lernt ECHO tatsÀchlich Terminal-Dynamiken?
Wir werden hier ein wenig vorsichtig sein, weil die World-Modeling-Community manchmal etwas intensiv sein kann.
Wir werden nicht behaupten, dass ECHO ein Weltmodell im stĂ€rksten Sinne lernt. Aber wir werden behaupten, dass ECHO eine Policy trainiert, deren versteckte ZustĂ€nde etwas darĂŒber aufgenommen haben, wie das Terminal sich verhĂ€lt, und deren FĂ€higkeit, vorherzusagen, was das Terminal tun wird, messbar verbessert wurde.
Wenn man Ilyas Zitat umkehrt, erhĂ€lt man eine falsifizierbarere Version. FĂŒr unser Setting wĂ€re es etwa so:
Wenn das Modell Terminal-Dynamiken gelernt hat, muss es gut darin sein, Terminal-Ausgaben vorherzusagen.
Denn es gibt keine andere Möglichkeit, konsequent hohe Wahrscheinlichkeiten den richtigen Token zuzuweisen. Ein Modell, das ein besserer Vorhersager ist, ist informationstheoretisch ein besserer Kompressor des Systems, das es vorhersagt.
Die Frage wird also empirisch: Macht ECHO das Modell tatsÀchlich zu einem besseren Vorhersager von Terminal-Ausgaben?
Ja. Und zwar deutlich.
Um diesen Test sauber zu machen, verwenden wir ein stĂ€rkeres Lehrermodell Qwen 3 32B (nicht in unseren TrainingslĂ€ufen verwendet), um Trajektorien fĂŒr jedes unserer Validierungssets zu generieren. Dann haben wir unsere Start-Policies, mit GRPO trainierte Policies und mit ECHO trainierte Policies evaluiert und gemessen, wie âĂŒberraschtâ jedes Modell von den resultierenden Terminal-Output-Token war.
Das Muster ist auf jedem Panel dasselbe: GRPO Àndert die Cross-Entropie der Umgebungs-Token kaum im Vergleich zur Start-Policy. ECHO senkt sie stark.

Also werden wir nicht âWeltmodellâ mit groĂem W sagen. Aber wir werden Folgendes sagen:
ECHO produziert Policies, die messbar besser darin sind, Terminal-Dynamiken zu komprimieren, und zwar auf Trajektorien, die sie nicht selbst generiert haben.
Das ist die operative Version der Behauptung, die der Titel macht, und die Version, die vollstÀndig verteidigbar ist.
Ăberraschender Befund 1: ECHO reduziert die AbhĂ€ngigkeit von Experten-SFT
Ein gĂ€ngiges Rezept fĂŒr Agent-RL ist: zuerst Experten-Trajektorien von einem stĂ€rkeren Modell verhaltensklonen, dann RL laufen lassen. Das ist besonders ĂŒblich fĂŒr Terminal-Agenten, bei denen die Belohnung spĂ€rlich und der Aktionsraum riesig ist.
In unserem Setting ist die Experten-SFT-Baseline OpenThoughts-Agent-v1-SFT (OT-SFT): Qwen3-8B feinabgestimmt auf Terminal-Agenten-Demonstrationen, die von einem stÀrkeren GLM-4.6-Lehrer generiert wurden.
Also fragten wir: Wie viel von diesem Experten-SFT-Vorteil kann ECHO zurĂŒckgewinnen, ohne den Lehrer zu verhaltensklonen?
Kann ECHO dich ĂŒberspringen lassen, Experten-SFT zu machen? In unserem Setting meistens ja!

Diese Abbildung vergleicht drei LĂ€ufe: einfaches GRPO auf dem Basismodell, ECHO auf dem Basismodell und GRPO auf dem SFT-Modell (SFT + GRPO). Im VerhĂ€ltnis zur LĂŒcke zwischen GRPO und SFT+GRPO (z.âŻB. dem Gewinn durch Start von SFT) holt ECHO 104âŻ% des Gewinns bei ITD, 89âŻ% bei Terminal Bench Lite (TBLite) und 50âŻ% bei TerminalBench-2.0 (TB2) pass@1 auf.
Das Ergebnis deutet darauf hin, dass ein groĂer Teil des Werts von Experten-SFT darin bestehen könnte, dem Modell eine Interaktions-Prior beizubringen, nicht nur eine Expertenstrategie-Prior. Experten-Demonstrationen zeigen sowohl, wie man sich wie ein Terminal-Agent verhĂ€lt â Dateien inspizieren, Tests ausfĂŒhren, Tracebacks folgen usw. â als auch, was ein Experte in bestimmten ZustĂ€nden tun wĂŒrde. ECHO imitiert diese Expertenentscheidungen nicht. Stattdessen trainiert es das Modell, die Terminal-Konsequenzen seiner eigenen Aktionen vorherzusagen, sodass es lernt, welche Befehle nĂŒtzlichen Zustand offenlegen, welche Fehler diagnostisch sind und welche Terminal-Output-Token Fortschritt signalisieren. Bessere Strategien können dann durch Interaktion statt Nachahmung entstehen.
Das hilft auch, die Benchmark-Aufteilung zu interpretieren. Bei ITD und TBLite erreicht ECHO fast Experten-SFT, was darauf hindeutet, dass ein GroĂteil des SFT-Vorteils von einem besseren Modell der Terminal-Interaktion herrĂŒhrt. Bei TB2 holt ECHO immer noch satte 50âŻ% der LĂŒcke ohne Demonstrationen auf. Die verbleibende LĂŒcke ist konsistent damit, dass TB2 schwieriger und verteilungsmĂ€Ăig weiter vom Trainingsset entfernt ist.
Wir wĂŒrden dies nicht als feste Obergrenze betrachten: Breiteres oder lĂ€ngeres Training auf TB2-Ă€hnlichen Aufgaben sollte den Agenten weiter verbessern.
Die Schlussfolgerung ist also nicht, dass Experten-SFT veraltet ist, sondern dass ein GroĂteil dessen, was Experten-SFT einem bringt, ein besseres Modell der Terminal-Interaktion sein könnte, und dass dieser Teil direkt von der Umgebung gelernt werden kann.
Fazit: Das Terminal ist der Lehrer!
Ăberraschender Befund 2: Ein Funken Selbstverbesserung ohne Belohnungen
Bisher war ECHO GRPO mit einem zusÀtzlichen Umgebungsverlust. Der Verifier sagt dem Agenten immer noch, ob er die Aufgabe gelöst hat, und GRPO aktualisiert das Modell auf Aktions-Token. Also Standard-RL-Setup mit einem kleinen extra Term.
Aber wenn ECHO der Policy tatsĂ€chlich etwas darĂŒber beibringt, wie das Terminal sich verhĂ€lt, dann brauchen wir vielleicht das Verifier-Signal gar nicht.
Wir fragen: Was passiert, wenn wir den Verifier ausschalten? Keine Belohnungen, von denen wir lernen können, nur das:
Das heiĂt, das Modell handelt, beobachtet, aktualisiert nur durch Vorhersage der Terminal-Ausgaben als Konsequenz seiner eigenen Aktionen.
Das sollte die Aufgabenleistung eigentlich nicht verbessern. Es gibt kein Label, das sagt, welche Aktion gut war. Wenn die Policy besser wird, muss es daran liegen, dass das Lernen, das Terminal vorherzusagen, indirekt die Aktions-Priors der Policy umformt.
Also haben wir es versucht!
Wir nahmen unseren stĂ€rksten Qwen3-8B+ECHO-Checkpoint, entfernten den GRPO-Term vollstĂ€ndig und trainierten fĂŒr 100 weitere Schritte auf zurĂŒckgehaltenen Aufgaben, nur mit dem Cross-Entropie-Verlust der Umgebung. Die Frage war, ob das Modell sich bei OOD-Aufgaben, die es noch nie gesehen hatte, verbessern könnte, allein durch Interaktion mit der Umgebung und Vorhersage dessen, was zurĂŒckkommt.
Hat diese verrĂŒckte Idee funktioniert? Irgendwie schon!

Auf val100 (In-Distribution): +3,8 pp. Auf ITD: +5,2 pp. Auf PyTerm (ein zurĂŒckgehaltenes OOD-Set von Python-lastigen Terminal-Aufgaben): +10,0 pp nach Filterung auf saubere Tool-Call-Trajektorien.
Umgebungs-only-Training verbessert die Policy, wenn die Terminal-Ausgabe eine nĂŒtzliche Aufsicht ist. Kein Belohnungssignal, das Modell trainiert nur, die von seinen eigenen Aktionen verursachten Ausgaben vorherzusagen, also hĂ€ngen Gewinne davon ab, ob diese Ausgaben nĂŒtzliche Dynamiken offenlegen.
Auf val100, das nah an der Trainingsmischung ist, ist der Gewinn real, aber klein: +3,8 pp vor SÀttigung. Die Policy hat die meisten lokalen Dynamiken bereits wÀhrend des ECHO-Trainings gelernt.
Auf ITD produziert die schwĂ€chere Start-Policy verrauschte Trajektorien â ungĂŒltige Befehle, Parse-Fehler, Sackgassenschleifen. Filterung auf saubere Rollouts entrauscht das Signal und ergibt +5,2 pp.
Allein saubere Trajektorien reichen jedoch nicht. Dieselbe Filterung verbesserte TBLite nicht konsistent, wĂ€hrend PyTerm von einer Ă€hnlichen Erfolgsrate startete, aber unter demselben Rezept verbessert wurde â was darauf hindeutet, dass der Engpass nicht nur die StĂ€rke der Policy ist. Der entscheidende Unterschied ist, wie informativ die Beobachtungen sind: Python-Aufgaben geben dichtes aktionsgekoppeltes Feedback â Code â Traceback â Fix â wĂ€hrend breitere Terminal-Aufgaben den Zustand indirekter durch Dateien, Konfigurationen und mehrstufige Einrichtung offenlegen.
Wir glauben, dass Verifier-freie Anpassung möglich ist: Sobald RL eine anstĂ€ndig explorierende Policy produziert hat, kann der Agent sich manchmal allein aus Konsequenzen weiter verbessern â aber nur, wenn seine Rollouts sauber sind und das Terminal-Feedback informativ ist. Das IST der ĂŒberraschende Teil. Nicht, dass der Agent sich perfekt selbst verbessert, sondern dass er sich ĂŒberhaupt selbst verbessert, allein durch Handeln und Vorhersagen, was zurĂŒckkommt.
Wo das uns hint lÀsst
ECHOs Kernlektion ist einfach: Agent-Rollouts enthalten mehr Aufsicht als nur die endgĂŒltige Belohnung, und wir sollten sie nutzen.
Jeder Befehl, den ein Agent ausfĂŒhrt, produziert eine Terminal-Antwort â stdout, Fehler, Traces, Dateien, Logs usw. â und Standard-RL verwendet diese Token nur als Kontext fĂŒr die nĂ€chste Aktion. ECHO macht sie zu Trainingszielen. Kein Lehrermodell, extra Rollouts oder separates Weltmodell nötig. Wir hören einfach auf, die Umgebungs-Token wegzuwerfen, die bereits im Transkript sind.
Diese kleine Ănderung fĂŒhrte zu drei ĂŒberraschenden Ergebnissen: stĂ€rkere RL-Leistung, viel weniger AbhĂ€ngigkeit von Experten-SFT und in manchen Settings Verifier-freie Selbstverbesserung allein durch Umgebungsinteraktion. Wir denken nicht, dass dies bedeutet, dass Belohnungen oder Demonstrationen ĂŒberflĂŒssig sind. Experten-Trajektorien lehren immer noch Strategie, und Verifier liefern das sauberste Aufgaben-Level-Signal. Aber ECHO deutet darauf hin, dass zwischen âImitiere den Expertenâ und âWarte auf spĂ€rliche Belohnungâ eine dichte, wenig genutzte Aufsichtsquelle liegt: die Konsequenzen der eigenen Aktionen des Agenten.
Die breitere Idee ist eine Fortsetzung der Hilfsvorhersage, die eine lange Geschichte im RL hat, und neuere Arbeiten haben World-Modeling-Ziele fĂŒr LLM-Agenten wiederbelebt, z.âŻB. Agent Learning via Early Experience verwendet Aktion-Konsequenz-Signal als Pre-RL-Phase, VAGEN fĂŒgt ein World-Modeling-Belohnung fĂŒr VLM-Agenten hinzu, RWML vortrainiert auf Next-State-Vorhersage, und CWM mitteltrainiert ein Code-Modell auf Beobachtungs-Aktions-Trajektorien. ECHO ist die Online-, in-der-RL-Schleife, CLI-gewĂŒrzte Version derselben Idee.
Wie weit kann diese Idee gehen?
Der nĂ€chste Schritt ist, dieses Umgebungssignal potenter zu machen â und zu testen, wie weit es generalisiert. ECHO verwendet rohe Terminal-Ausgaben, weil sie bereits im Rollout sind, aber das beste Lernziel könnte eine sauberere und kompaktere ReprĂ€sentation sein: Zusammenfassungen oder aufgabenrelevante Ansichten des Zustands. Auch: Welche Beobachtungen sollten wir trainieren? Wann sollten wir Trajektorien filtern? Wie sollten wir Umgebungsvorhersage gegen Policy-Optimierung gewichten? Kann dieselbe Idee ĂŒber Terminals hinaus funktionieren: fĂŒr Browser-Agenten, Multi-Tool-Systeme, langfristige Code-Agenten oder benutzerseitige Assistenten, bei denen Follow-ups, Korrekturen und PrĂ€ferenzen eine andere Form von Interaktionsfeedback sind?
Unsere Wette ist, dass ĂŒberall dort, wo ein Agent handelt und die Welt in Token antwortet, diese Antwort-Token â oder bessere ReprĂ€sentationen davon â Teil des Lernsignals sein sollten. ECHO ist die einfachste Version dieser Idee, die uns einfiel, und wir vermuten, dass eine Form der Environment-Token-Vorhersage bis Ende 2026 Standard in Agent-RL-Trainern sein wird.
Lest das vollstÀndige Paper und den Code auf SkyRL.
Probiert ECHO aus und erzÀhlt uns, wie viel schneller euer Agent trainiert hat.
FuĂnote: Ein Labyrinth-Weltmodell auf meinem Laptop trainieren ⊠irgendwie
Erinnerst du dich, als ich sagte, ich hĂ€tte âein albernes Labyrinth-Experimentâ beigesteuert? Hier ist das alberne Labyrinth-Experiment
Das Setup war eine winzige Mini-Version von ECHO: Ein Gitterlabyrinth in einem winzigen Terminal. Der Agent (ein 10M Transformer in einer Schleife) gibt eine Richtung vor â hoch, runter, links, rechts â und das Terminal antwortet mit der Position des Agenten in Bezug auf seine âNachbarnâ (es ist im Grunde ein Pfadfindungsproblem in einem 2D-Gitter) und der Entfernung zum Ziel. Der Rollout sieht also genau (fĂŒr kleine Werte von âgenauâ) wie ein CLI-Agent-Rollout aus, nur viel einfacher đ: Aktion â Umgebungsantwort â Aktion â Umgebungsantwort usw.
Ich habe zwei Bedingungen auf einem von Grund auf neu trainierten 10M-Param-Transformer getestet: 1) nur auf die Aktions-Token trainieren 2) auf die Aktions-Token und die Antwort des Terminals (Nachbarn, Entfernung usw.) trainieren. Alle trainiert auf frischen 6Ă6 / 7Ă7 / 8Ă8 Labyrinthen

Ist dieses Labyrinth-Ding ein Nature-Paper? Nein. Aber: Ich denke, es gibt einen Punkt, den ich immer wieder mache, der sich immer wieder verallgemeinern lÀsst.
Fast jede saubere Idee hat einen Mikrokosmos: eine verkleinerte Version, die man an einem Abend auf dem Laptop laufen lassen kann, die einem sagt, ob die Idee es wert ist, skaliert zu werden.
Das Labyrinth hat nicht bewiesen, dass ECHO funktionieren wĂŒrde. Es gab mir genug Ăberzeugung, Vaish eine Teams-Nachricht zu schicken, anstatt die Idee zu vergessen. Es stellte sich heraus, dass Vaish unabhĂ€ngig um dieselbe Idee herumkreiste, und als ihr erster Cluster-Run mit Ergebnissen zurĂŒckkam, war ich begeistert und wirklich ĂŒberrascht. Das ECHO-Labyrinth hatte angedeutet, dass die Richtung richtig war, aber es hĂ€tte nicht die Verdopplung der TerminalBench-Ergebnisse, die RĂŒckgewinnung des gröĂten Teils von Experten-SFT oder die Selbstverbesserung ohne Belohnungen vorhersagen können. Das waren Vaishs Ergebnisse. âIrgendwie ein 6Ă6-Labyrinth lösenâ und âVerdopplung auf TerminalBenchâ sind sehr unterschiedliche epistemische ZustĂ€nde.
Aber der Sinn dieses Nachtrags ist nicht, dass der Laptop das Cluster-Experiment ersetzt. Der Punkt ist, dass die meisten meiner Ideen falsch sind und das Laptop-Experiment (mit Hilfe von Claude Code und Codex) mir sagt, welche ich fallen lassen soll, bevor sie jemand anderem Zeit kosten. Hin und wieder ĂŒberlebt eine Idee, und wenn das der Fall ist, kann sie sich vielleicht das Recht auf die Zeit eines Mitarbeiters und auf GPUs verdienen.
ECHO ist eine davon.





