@VaishShrivas के साथ सह-लेखन
हमने CLI एजेंटों को RL के दौरान टर्मिनल प्रतिक्रियाओं का पूर्वानुमान लगाना सिखाया, साथ ही एक्शन पर सामान्य GRPO लॉस भी लगाया। बदलाव बहुत छोटा है: वही रोलआउट और फॉरवर्ड पास, लेकिन टर्मिनल-आउटपुट टोकन को मास्क करना बंद कर दिया। प्रभाव बहुत बड़ा है: सभी इवैल्यूएशन में सुधार होता है, और परिणामी मॉडल स्पष्ट रूप से सीखते हैं कि टर्मिनल कैसे व्यवहार करता है।
CLI एजेंट मुफ्त में टर्मिनल मॉडल सीख सकते हैं — और इसका उपयोग बेहतर कार्य करने के लिए कर सकते हैं!
यह है ECHO: एक हाइब्रिड ऑब्जेक्टिव जो इंटरैक्शन के दोनों पक्षों पर प्रशिक्षण लेता है: एजेंट जो लिखता है, और टर्मिनल जो वापस लिखता है।
पूरा पेपर और कोड (SkyRL के ऊपर) देखें।
अगर आपके पास पूरी पोस्ट पढ़ने का समय नहीं है, तो यहाँ हमने जो पाया वह है:
- मानक एजेंट RL वातावरण की प्रतिक्रिया को फेंक देता है। GRPO एक्शन टोकन पर प्रशिक्षण लेता है और टर्मिनल प्रतिक्रियाओं को मास्क कर देता है, भले ही वे पहले से कॉन्टेक्स्ट में हों, मॉडल के माध्यम से गुज़र रहे हों, और एजेंट की कार्रवाइयों के वातावरण पर प्रभाव के ग्राउंड ट्रुथ सिग्नल हों।
- ECHO इंटरैक्शन के दोनों पक्षों पर प्रशिक्षण देकर इसे ठीक करता है। यह एक्शन टोकन पर सामान्य GRPO लॉस रखता है, और टर्मिनल-आउटपुट टोकन पर एक सरल वातावरण क्रॉस-एंट्रॉपी लॉस जोड़ता है। यह किसी भी GRPO ट्रेनर के ऊपर कुछ LoCs है। वही रोलआउट और फॉरवर्ड पास, बस लॉगिट पर एक अलग मास्क।
- ECHO काम करता है, और यह मुफ़्त है! ECHO ने Qwen3-8B, OpenThinker-Agent-v1-SFT, और Qwen3-14B को हर बेंचमार्क पर बेहतर बनाया जिसका हमने परीक्षण किया। ECHO समान प्रदर्शन तक 2.3× तेज़ प्रशिक्षण भी देता है। TerminalBench-2.0 pass@1 लगभग दोगुना हो जाता है 8B (2.7 → 5.2) और 14B (5.2 → 10.8) दोनों पर।
- ECHO टर्मिनल डायनेमिक्स सिखाता है! होल्ड-आउट ट्रैजेक्ट्रीज पर, वातावरण-टोकन क्रॉस-एंट्रॉपी ECHO के साथ तेजी से गिरती है और सादे GRPO के साथ मुश्किल से हिलती है। प्रत्यक्ष प्रमाण कि ECHO मॉडल को सिखाता है कि टर्मिनल वास्तव में कैसे प्रतिक्रिया करता है। जो चेकपॉइंट टर्मिनल आउटपुट का बेहतर अनुमान लगाते हैं, वे अधिक कार्य भी हल करते हैं।
- ECHO एक विशेषज्ञ शिक्षक का विकल्प बन सकता है। बिना किसी विशेषज्ञ प्रदर्शन के बेस Qwen3-8B से, ECHO लगभग वही हासिल करता है जो विशेषज्ञ प्रदर्शनों पर SFT के बाद GRPO हासिल करता है।
- ECHO एजेंटों को बिना वेरिफ़ायर रिवॉर्ड के आत्म-सुधार करने देता है! किसी भी वेरिफ़ायर रिवॉर्ड के बिना, ECHO (बिना किसी GRPO के) एजेंट को केवल वातावरण में कार्य करके और भविष्यवाणी करके और सुधार करने की अनुमति देता है कि क्या होता है।
यह एक सरल प्रश्न के रूप में शुरू हुआ: यदि प्रत्येक कमांड एक टर्मिनल प्रतिक्रिया उत्पन्न करता है, तो RL केवल कमांड पर प्रशिक्षण क्यों लेता है?
Vaish ने इसे समझने का सारा काम किया। मैंने एक मूर्खतापूर्ण भूलभुलैया प्रयोग*, शीर्षक पर एक दृढ़ राय, और जब उसने मुझे पहला परिणाम दिखाया तो "होली शिट" कहने में योगदान दिया। Ahmed Awadallah को धन्यवाद जिन्होंने हमें इस तरह के विचारों का पीछा करने के लिए जगह — और GPUs — दी, भले ही वे सिर्फ एक शोध की खुजली के रूप में शुरू हों।
उल्लेखनीय: ECHO के लिए पहला क्लस्टर रन 29 मार्च को लॉन्च हुआ था 😊
यह काम AI Frontiers में किया गया था, जो Microsoft Research के अंदर एक बुटीक रिसर्च लैब है।
आप लगातार कैसे सीखते हैं?
यह विचार पहली बार जब सामने आया तो यह आत्म-सुधार और निरंतर सीखने पर एक सरल प्रश्न से प्रेरित था। एक एजेंट दुनिया में केवल कार्य करने से बेहतर कैसे होता है?
Vaish और मैं पिछले Fall से CLI एजेंटों में आत्म-सुधार के बारे में बात कर रहे थे, यानी, वातावरण (उर्फ टर्मिनल) के साथ बातचीत करने से बेहतर होने का क्या मतलब होगा, विशेष रूप से बिना किसी वेरिफ़ायर के।
वेरिफ़ायर-रहित RL एक समस्या है जिस पर लोग वर्षों से काम कर रहे हैं, और इसके अधिकांश प्रयासों को एक ही मुद्दे का सामना करना पड़ता है: पर्यवेक्षण कहाँ से आता है, यदि कोई इनाम नहीं है?
लगभग उसी समय, मेरी एक मूर्खतापूर्ण ट्विटर पोस्ट ने @willccbb के साथ एक कॉल का नेतृत्व किया जिसमें फिर से निरंतर सीखने पर चर्चा हुई। इस चैट के दौरान मुझे याद है कि मैंने कुछ इस तरह मूर्खतापूर्ण कहा था:
शायद निरंतर सीखने का मतलब है कि वातावरण आपको आपके कार्यों के जवाब में जो कुछ भी वापस देता है, उस पर प्रशिक्षण लेना।

इससे मॉडल को कुछ तो सीखना चाहिए, है ना?
पता चला, हाँ!
दुनिया एक लॉस फंक्शन है!
जब कोई एजेंट किसी वातावरण में कार्य करता है, तो उस कार्य के प्रति वातावरण की प्रतिक्रिया हमेशा सत्य होती है।
भौतिक दुनिया से एक उदाहरण: यदि आप एक लाइट स्विच फ्लिप करते हैं, तो लाइट चालू होती है, या नहीं होती। यदि नहीं होती, तो यह एक वैध प्रतिक्रिया है: यह आपको बल्ब, या वायरिंग, या ब्रेकर आदि के बारे में कुछ बताती है। किसी भी तरह, जो वापस आता है वह इस बात की एक छोटी सी जानकारी है कि आपके कार्यों के कारण दुनिया कैसे बदली। आप बिजली, स्विच और बल्ब के पूर्ण तंत्र के संपर्क में नहीं आते हैं, लेकिन आप परिणाम देखते हैं। क्या लाइट चालू हुई? और यह आपके लिए यह मानसिक मॉडल बनाना शुरू करने के लिए पर्याप्त है कि स्विच फ्लिप करने से लाइट कैसे चालू होती है।
टर्मिनल भी लगभग उसी तरह काम करता है।
bash कमांड के बाद का आउटपुट कमांड चलाने के बाद कंप्यूटर/कंटेनर की स्थिति में हुए परिवर्तन का एक छोटा सा सारांश है। आप stdout, stderr, एक्ज़िट कोड, फ़ाइल लिस्टिंग आदि देखते हैं। आप कर्नेल स्टेट या प्रोसेस ट्री या कोई अत्यधिक विस्तृत चीज़ नहीं देखते हैं।

आप जो वापस देखते हैं वह पृष्ठभूमि में क्या हुआ, इसका एक निम्न-आयामी प्रक्षेपण है, जिसका उपयोग CLI एजेंट अपने द्वारा प्राप्त किए जाने वाले कार्य की ओर अगली कार्रवाई चुनने के लिए करेगा। और जैसे लाइट स्विच के साथ, यह मानसिक मॉडल — या यदि आप चाहें, तो विश्व मॉडल — बनाने के लिए पर्याप्त संकेत है कि सिस्टम कैसे व्यवहार करता है।
सबसे अच्छा हिस्सा यह है कि टर्मिनल आउटपुट, जो फिर से सिस्टम की स्थिति में बदलाव का प्रतिबिंब है, आपके लिए हर एक मोड़ पर, मुफ्त में गणना किया गया एक पर्यवेक्षण संकेत है।
बढ़िया!
समस्या यह है कि मानक एजेंट RL (जैसे SkyRL में GRPO) ग्रेडिएंट को केवल एक्शन टोकन के माध्यम से धकेलता है और टर्मिनल आउटपुट टोकन को अनदेखा करता है। इस तथ्य के बावजूद कि टर्मिनल आउटपुट पहले से ही कॉन्टेक्स्ट में है। मॉडल इस पर ध्यान देता है, फॉरवर्ड पास इसके लिए लॉगिट की गणना करता है, फिर भी ट्रेनर इसे लॉस से मास्क कर देता है।
कितनी अच्छे टोकन की बर्बादी है 😊
तो, क्या होगा अगर हम ऐसा न करें?
मॉडल पहले से ही उन टोकन पर कंडीशन्ड है। यह पहले से ही उन पर एक प्रायिकता वितरण उत्पन्न करता है। क्रॉस-एंट्रॉपी लॉस जोड़ने में मूलतः कुछ भी खर्च नहीं होता।
और यदि हम ऐसा करते हैं... तो मॉडल के पास यह सीखने का कारण है कि टर्मिनल वास्तव में कैसे व्यवहार करता है और इसलिए वह अपने अंदर उस सिस्टम का एक अंतर्निहित मॉडल बना सकता है जिस पर वह कार्य कर रहा है। यह अनुमान लगाने के लिए कि ls क्या लौटाएगा, मॉडल को यह ट्रैक करना होगा कि उसने अभी कौन सी फ़ाइलें बनाईं, क्या कहाँ रहता है, आदि।
जैसा कि Ilya ने कहा:
अच्छी तरह से अगले टोकन का पूर्वानुमान लगाने का मतलब है कि आप उस अंतर्निहित वास्तविकता को समझते हैं जिसने उस टोकन के निर्माण का नेतृत्व किया।
हमारी सेटिंग में, इसका मतलब होगा: एक एजेंट जो टर्मिनल आउटपुट का पूर्वानुमान लगाने में अच्छा है, उसने एक छोटे लेकिन वास्तविक अर्थों में, टर्मिनल का एक अंतर्निहित मॉडल बनाया है।
तो हम एजेंट को टर्मिनल आउटपुट का पूर्वानुमान लगाने के लिए कैसे प्राप्त करें?
ECHO: बिना भुगतान किए दुनिया का मॉडल सीखें
एक टर्मिनल-एजेंट रोलआउट पहले से ही टोकन की दो धाराओं को आपस में जोड़ता है: एजेंट के एक्शन टोकन और वातावरण के ऑब्ज़र्वेशन टोकन। मानक GRPO केवल एक्शन टोकन पर लॉस लगाता है।
यह विशेष रूप से बेकार है क्योंकि टर्मिनल रिवॉर्ड विरल, विलंबित और बाइनरी होते हैं। हमारी Qwen3-8B सेटिंग में, कई कार्यों के लिए 15% से कम ऑन-पॉलिसी रोलआउट सफल होते हैं। लेकिन असफल ट्रैजेक्ट्री डेटा असफल नहीं है: उनमें अभी भी फ़ाइल लिस्टिंग, त्रुटियाँ, लॉग, स्टैक ट्रेस, grep आउटपुट और एजेंट के कमांड के अन्य परिणाम होते हैं।
हमारी विधि उन परिणामों से सीखने का सबसे शर्मनाक सरल तरीका है 😊
हम एक्शन टोकन पर मानक GRPO लॉस के साथ-साथ वातावरण-अवलोकन टोकन पर एक लंबाई-सामान्यीकृत क्रॉस-एंट्रॉपी लॉस जोड़ते हैं। ECHO हाइब्रिड ऑब्जेक्टिव है:
जहाँ Actions एजेंट-एक्शन स्थितियाँ हैं और Observations टर्मिनल-आउटपुट स्थितियाँ हैं।
कुछ तकनीकी बिंदु:
- ECHO ऑन-पॉलिसी सीखता है। बेस मॉडल या शिक्षक से टर्मिनल ट्रांसक्रिप्ट के एक जमे हुए सेट पर प्रशिक्षण के बजाय, ECHO RL के दौरान वर्तमान मॉडल द्वारा उत्पादित टर्मिनल प्रतिक्रियाओं से सीखता है। जैसे-जैसे एजेंट बेहतर होता है, यह वातावरण के नए हिस्सों की खोज करता है और नए कार्य → अवलोकन संक्रमणों से ताज़ा पर्यवेक्षण प्राप्त करता है। बेहतर नीतियाँ बेहतर प्रतिक्रिया उत्पन्न करती हैं; बेहतर प्रतिक्रिया पूर्वानुमान नीति को बेहतर कार्य प्रायरिटीज़ देता है। एक लूप! कितना मज़ेदार?
- संयुक्त ऑब्जेक्टिव में, λ मायने रखता है। यदि यह बहुत छोटा है, तो वातावरण लॉस मॉडल को अधिक आकार नहीं देता है। यदि बहुत बड़ा है, तो नीति कार्य प्रगति के बजाय अनुमानित आउटपुट के लिए अनुकूलित कर सकती है। संतुलन बनाना होगा!
- लक्ष्य टोकन मायने रखते हैं। हम वास्तविक टर्मिनल आउटपुट पर प्रशिक्षण लेते हैं, हार्नेस चेतावनियों पर नहीं। चेतावनियाँ याद रखना आसान है; उपयोगी संकेत वास्तविक टर्मिनल प्रतिक्रिया है — फ़ाइलनाम, स्टैक ट्रेस और त्रुटि संदेश।
तो इसकी लागत क्या है?
एक सतर्क पाठक पूछ सकता है:
क्या बैकवर्ड पास अधिक महंगा नहीं है यदि आप अधिक टोकन पदों पर ग्रेडिएंट बैक-प्रचारित कर रहे हैं?
लगभग नहीं। बैकप्रॉप का महंगा हिस्सा अटेंशन और MLP लेयरों के माध्यम से मैटमल्स है, और वे उसी टोकन अनुक्रम पर चलते हैं भले ही लॉस में कौन से आउटपुट स्थान योगदान करते हैं। प्रत्येक प्रतिक्रिया स्थान पर लॉगिट पहले से ही GRPO के लिए गणना किए जाते हैं। एक्शन मास्क और ऑब्ज़र्वेशन मास्क विभिन्न लॉस शर्तों के लिए उनके विभिन्न उपसमूहों को एकत्र करते हैं।
यहाँ एक पल के लिए रुकें: हमने एक विश्व मॉडलिंग लॉस जोड़ा, और लागत मूल रूप से शून्य है! कोई अतिरिक्त रोलआउट, शिक्षक मॉडल, और कोई अतिरिक्त फॉरवर्ड पास नहीं।
क्या ECHO बेहतर CLI एजेंट को प्रशिक्षित करने में मदद करता है?
हमने मल्टी-टर्न टर्मिनल कार्यों पर सबसे साफ तुलना चलाई: समान मॉडल, समान GRPO रेसिपी, समान कार्य, समान रोलआउट और टर्न बजट, समान संख्या में प्रशिक्षण चरण। रिवॉर्ड=1 यदि एजेंट n टर्न के बाद परीक्षण मामलों को पास करता है, 0 यदि यह विफल रहता है।
एकमात्र अंतर यह है कि क्या टर्मिनल-आउटपुट टोकन भी लॉस में प्रवेश करते हैं।
गुलाबी वक्र ECHO हैं और हरा GRPO है। मॉडल आकार और मूल्यांकन स्लाइस में, उत्तर एक ही है: वातावरण पूर्वानुमान जोड़ने से एजेंट काफी बेहतर हो जाता है।

ECHO तीनों होल्ड-आउट वैलिडेशन सेटों पर लगातार प्रदर्शन में सुधार करता है — गुलाबी वक्र शुरुआत में ही हरे से अलग हो जाते हैं और आम तौर पर ऊपर रहते हैं।
ECHO काफी तेज़ी से भी सीखता है: ECHO, Terminal-Bench Lite पर GRPO के 500 स्टेप प्रदर्शन को 280 स्टेप तेज़ी से मेल करता है! 2.3x गति वृद्धि और यह बढ़ता रहता है 😊
ये परिणाम ECHO के पीछे हमारी अंतर्ज्ञान की पुष्टि करते हैं। GRPO केवल विरल, बाइनरी परिणाम पुरस्कारों के साथ प्रशिक्षण लेता है। टर्मिनल कार्यों जैसे कठिन डोमेन के लिए जहां छोटे मॉडलों के लिए पास-रेट कम है, यह कई कार्यों के लिए बहुत कम या कोई संकेत नहीं देता है।
ECHO असफल कार्यों को पर्यवेक्षण में बदलकर प्रशिक्षण को अधिक नमूना-कुशल बनाता है। भले ही कोई कार्य कार्य को हल न करे, टर्मिनल प्रतिक्रिया अभी भी मॉडल को सिखाती है कि उस कार्य ने क्या कारण बनाया! और असफल कार्यों के परिणामों की भविष्यवाणी करने से एजेंट को बेहतर कार्य चुनने में मदद मिल सकती है।
यदि आप बल्कि इवैल्यूएशन में संख्याएँ देखना पसंद करते हैं, तो तालिका के रूप में भी यही कहानी:

प्रत्येक ब्लॉक में अंतिम पंक्ति देखें: ECHO। TerminalBench-2.0 pass@1 लगभग दोगुना हो जाता है 8B (2.7 → 5.2) और 14B (5.2 → 10.8) पैमानों पर। और महत्वपूर्ण बात यह है कि यह अतिरिक्त डेटा, रोलआउट, शिक्षक मॉडल, या किसी भिन्न वेरिफ़ायर से नहीं है। रोलआउट में पहले से ही टर्मिनल प्रतिक्रिया शामिल थी। ECHO बस इससे सीखता है।
"प्रदर्शन बिना किसी अतिरिक्त लागत के लगभग दोगुना हो जाता है" एक ऐसी पंक्ति है जिसे आप अपने पूरे शोध करियर में बहुत कम ही पढ़ते हैं 😊।
ECHO सभी बेंचमार्क और मॉडल आकारों पर GRPO प्रदर्शन को काफी हद तक हरा देता है, अधिक नमूना-कुशल है, और मूल रूप से कुछ भी खर्च नहीं करता है। आप एक विश्व मॉडल सीखते हैं जैसे-जैसे आपकी नीति में सुधार होता है, जो इसे तेज़ी से सुधारने में मदद करता है।
हालांकि संशयवादी यह कह सकते हैं: क्या आप वास्तव में एक विश्व मॉडल सीखते हैं?
चलिए देखते हैं!
क्या ECHO वास्तव में टर्मिनल डायनेमिक्स सीखता है?
हम यहाँ थोड़ा हेज करने वाले हैं क्योंकि विश्व मॉडलिंग की भीड़ थोड़ी तीव्र हो सकती है।
हम यह दावा नहीं करेंगे कि ECHO सबसे मजबूत अर्थों में एक विश्व मॉडल सीखता है। लेकिन हम यह दावा करेंगे कि ECHO एक ऐसी नीति को प्रशिक्षित करता है जिसकी छिपी हुई अवस्थाओं ने टर्मिनल कैसे व्यवहार करता है, इसके बारे में कुछ अवशोषित किया है, और जिसकी टर्मिनल क्या करेगा, इसकी भविष्यवाणी करने की क्षमता में मापनीय सुधार हुआ है।
यदि आप Ilya के उद्धरण को उलट देते हैं, तो आपको एक अधिक मिथ्याकरणीय संस्करण मिलता है। हमारी सेटिंग के लिए यह कुछ इस तरह होगा:
यदि मॉडल ने टर्मिनल डायनेमिक्स सीखे हैं, तो उसे टर्मिनल आउटपुट की भविष्यवाणी करने में अच्छा होना होगा।
क्योंकि सही टोकन को लगातार उच्च संभावना देने का कोई और तरीका नहीं है। एक मॉडल जो बेहतर भविष्यवक्ता है, वह सूचना-सैद्धांतिक शब्दों में, उस सिस्टम का एक बेहतर संपीडक है जिसकी वह भविष्यवाणी कर रहा है।
तो प्रश्न अनुभवजन्य हो जाता है: क्या ECHO वास्तव में मॉडल को टर्मिनल आउटपुट का बेहतर भविष्यवक्ता बनाता है?
हाँ। बहुत अधिक।
इस परीक्षण को साफ करने के लिए, हम अपने प्रत्येक वैलिडेशन सेट के लिए ट्रैजेक्ट्री उत्पन्न करने के लिए एक मजबूत शिक्षक मॉडल Qwen 3 32B (हमारे किसी भी प्रशिक्षण रन में उपयोग नहीं किया गया) का उपयोग करते हैं। फिर हमने अपनी शुरुआती नीतियों, GRPO के साथ प्रशिक्षित नीतियों, और ECHO के साथ प्रशिक्षित नीतियों का मूल्यांकन किया और मापा कि प्रत्येक मॉडल परिणामी टर्मिनल-आउटपुट टोकन से कितना "आश्चर्यचकित" था।
प्रत्येक पैनल पर पैटर्न समान है: GRPO शुरुआती नीति की तुलना में वातावरण-टोकन क्रॉस-एंट्रॉपी को मुश्किल से बदलता है। ECHO इसे तेजी से कम करता है।

तो हम बड़े W के साथ विश्व मॉडल नहीं कहेंगे। लेकिन हम यह कहेंगे:
ECHO ऐसी नीतियाँ उत्पन्न करता है जो उन ट्रैजेक्ट्री पर टर्मिनल डायनेमिक्स को संपीड़ित करने में मापनीय रूप से बेहतर होती हैं जो उन्होंने उत्पन्न नहीं कीं।
जो उस दावे का परिचालन संस्करण है जो शीर्षक बना रहा है, और वह संस्करण जो पूरी तरह से बचाव योग्य है।
आश्चर्यजनक निष्कर्ष 1: ECHO विशेषज्ञ SFT पर निर्भरता कम करता है
एजेंट RL के लिए एक सामान्य नुस्खा है: पहले एक मजबूत मॉडल से विशेषज्ञ ट्रैजेक्ट्री का व्यवहार-क्लोन करें, फिर RL चलाएं। यह टर्मिनल एजेंटों के लिए विशेष रूप से आम है, जहां रिवॉर्ड विरल है और एक्शन स्पेस बहुत बड़ा है।
हमारी सेटिंग में, विशेषज्ञ-SFT बेसलाइन OpenThoughts-Agent-v1-SFT (OT-SFT) है: एक मजबूत GLM-4.6 शिक्षक द्वारा उत्पन्न टर्मिनल-एजेंट प्रदर्शनों पर फाइन-ट्यून किया गया Qwen3-8B।
इसलिए हमने पूछा: ECHO शिक्षक के व्यवहार-क्लोनिंग के बिना उस विशेषज्ञ-SFT लाभ का कितना हिस्सा वसूल कर सकता है?
क्या ECHO आपको विशेषज्ञ SFT को छोड़ने देता है? हमारी सेटिंग में, अधिकतर हाँ!

यह आंकड़ा तीन रनों की तुलना करता है: बेस मॉडल पर सादा GRPO, बेस मॉडल पर ECHO, और SFTed मॉडल पर GRPO (SFT + GRPO)। GRPO और SFT+GRPO के बीच के अंतर के सापेक्ष (जैसे, SFT से शुरू करने से मिलने वाला लाभ), ECHO ITD पर 104% लाभ, Terminal Bench Lite (TBLite) पर 89%, और TerminalBench-2.0 (TB2) pass@1 पर 50% लाभ वसूल करता है।
परिणाम बताता है कि विशेषज्ञ SFT का एक बड़ा हिस्सा मॉडल को एक इंटरैक्शन प्रायर सिखाने से आ सकता है, न कि केवल एक विशेषज्ञ रणनीति प्रायर से। विशेषज्ञ प्रदर्शन दिखाते हैं कि टर्मिनल एजेंट की तरह कैसे व्यवहार करें — फ़ाइलों का निरीक्षण करें, परीक्षण चलाएं, ट्रेसबैक का पालन करें, आदि — और विशिष्ट अवस्थाओं में एक विशेषज्ञ क्या करेगा। ECHO उन विशेषज्ञ विकल्पों की नकल नहीं करता है। इसके बजाय, यह मॉडल को अपने स्वयं के कार्यों के टर्मिनल परिणामों की भविष्यवाणी करने के लिए प्रशिक्षित करता है, ताकि वह सीख सके कि कौन से कमांड उपयोगी स्थिति को उजागर करते हैं, कौन सी त्रुटियाँ नैदानिक हैं, और कौन से टर्मिनल आउटपुट टोकन प्रगति का संकेत देते हैं। बेहतर रणनीतियाँ तब नकल के बजाय बातचीत के माध्यम से उभर सकती हैं।
यह बेंचमार्क विभाजन की व्याख्या करने में भी मदद करता है। ITD और TBLite पर, ECHO लगभग विशेषज्ञ SFT से मेल खाता है, यह सुझाव देता है कि SFT का अधिकांश लाभ टर्मिनल इंटरैक्शन के बेहतर मॉडल से आता है। TB2 पर, ECHO अभी भी बिना प्रदर्शनों के अंतर का एक महत्वपूर्ण 50% वसूल करता है। शेष अंतर TB2 के कठिन होने और प्रशिक्षण सेट से वितरणात्मक रूप से दूर होने के अनुरूप है।
हम इसे एक निश्चित सीमा के रूप में नहीं मानेंगे: TB2 जैसे कार्यों पर व्यापक या लंबा प्रशिक्षण एजेंट को और बेहतर करना चाहिए।
तो निष्कर्ष यह नहीं है कि विशेषज्ञ SFT अप्रचलित है, बल्कि यह है कि विशेषज्ञ SFT जो कुछ खरीदता है, उसका अधिकांश भाग टर्मिनल इंटरैक्शन का एक बेहतर मॉडल हो सकता है, और वह हिस्सा सीधे वातावरण से सीखा जा सकता है।
मुख्य बात: टर्मिनल ही शिक्षक है!
आश्चर्यजनक निष्कर्ष 2: बिना पुरस्कारों के आत्म-सुधार की चिंगारियाँ
अब तक ECHO एक सहायक वातावरण लॉस के साथ GRPO रहा है। वेरिफ़ायर अभी भी एजेंट को बताता है कि क्या उसने कार्य हल किया, और GRPO एक्शन टोकन पर मॉडल को अपडेट करता है। तो एक छोटे अतिरिक्त पद के साथ मानक RL सेटअप।
लेकिन यदि ECHO वास्तव में नीति को टर्मिनल कैसे व्यवहार करता है, इसके बारे में कुछ सिखा रहा है, तो शायद हमें वेरिफ़ायर सिग्नल की बिल्कुल भी आवश्यकता नहीं है।
हम पूछते हैं: क्या होता है यदि हम वेरिफ़ायर बंद कर दें? सीखने के लिए कोई पुरस्कार नहीं, बस यह:
यानी मॉडल कार्य करता है, निरीक्षण करता है, केवल अपने स्वयं के कार्यों के परिणामस्वरूप टर्मिनल आउटपुट की भविष्यवाणी करके अपडेट करता है।
यह ऐसा लगता है जैसे कार्य प्रदर्शन में सुधार नहीं होना चाहिए। कोई लेबल नहीं है जो बताए कि कौन सी कार्रवाई अच्छी थी। यदि नीति बेहतर होती है, तो यह इसलिए होना चाहिए क्योंकि टर्मिनल की भविष्यवाणी करना सीखना अप्रत्यक्ष रूप से नीति के कार्य प्रायर को नया आकार देता है।
तो हमने इसे आज़माया!
हमने अपना सबसे मजबूत Qwen3-8B+ECHO चेकपॉइंट लिया, GRPO शब्द को पूरी तरह से हटा दिया, और केवल वातावरण क्रॉस-एंट्रॉपी लॉस का उपयोग करके होल्ड-आउट कार्यों पर 100 और कदमों के लिए प्रशिक्षित किया। \\\\सवाल यह था कि क्या मॉडल उन OOD कार्यों पर सुधार कर सकता है जो उसने पहले कभी नहीं देखे थे, केवल वातावरण के साथ बातचीत करके और जो वापस आया उसकी भविष्यवाणी करके।
क्या यह पागल विचार काम कर गया? कुछ हद तक!

val100 (इन-डिस्ट्रीब्यूशन) पर: +3.8 pp। ITD पर: +5.2 pp। PyTerm (पायथन-भारी टर्मिनल कार्यों का एक होल्ड-आउट OOD सेट) पर: स्वच्छ टूल-कॉल ट्रैजेक्ट्री में फ़िल्टर करने के बाद +10.0 pp।
केवल-Env प्रशिक्षण नीति में सुधार करता है जब टर्मिनल आउटपुट उपयोगी पर्यवेक्षण होता है। कोई पुरस्कार संकेत नहीं होने के कारण, मॉडल केवल अपने स्वयं के कार्यों के कारण होने वाले आउटपुट की भविष्यवाणी करने के लिए प्रशिक्षित होता है, इसलिए लाभ इस बात पर निर्भर करता है कि क्या वे आउटपुट उपयोगी डायनेमिक्स को उजागर करते हैं।
val100 पर, जो प्रशिक्षण मिश्रण के करीब है, लाभ वास्तविक लेकिन छोटा है: संतृप्ति से पहले +3.8 pp। नीति पहले से ही ECHO प्रशिक्षण के दौरान अधिकांश स्थानीय डायनेमिक्स सीख चुकी है।
ITD पर, कमजोर शुरुआती नीति शोरगुल वाली ट्रैजेक्ट्री उत्पन्न करती है — अमान्य कमांड, पार्स त्रुटियाँ, डेड-एंड लूप। स्वच्छ रोलआउट में फ़िल्टर करना सिग्नल को शुद्ध करता है और +5.2 pp देता है।
हालांकि, केवल स्वच्छ ट्रैजेक्ट्री पर्याप्त नहीं हैं। उसी फ़िल्टरिंग ने TBLite में लगातार सुधार नहीं किया, जबकि PyTerm समान पास दर से शुरू हुआ लेकिन उसी रेसिपी के तहत सुधार हुआ — यह सुझाव देते हुए कि अड़चन केवल नीति की ताकत नहीं है। मुख्य अंतर यह है कि अवलोकन कितने जानकारीपूर्ण हैं: पायथन कार्य घने एक्शन-लिंक्ड फीडबैक देते हैं — कोड → ट्रेसबैक → फिक्स — जबकि व्यापक टर्मिनल कार्य फ़ाइलों, कॉन्फिग और मल्टी-स्टेप सेटअप के माध्यम से स्थिति को अधिक अप्रत्यक्ष रूप से प्रकट करते हैं।
हमारा मानना है कि वेरिफ़ायर-मुक्त अनुकूलन संभव है: एक बार जब RL ने एक सभ्य खोज मॉडल तैयार कर लिया है, तो एजेंट कभी-कभी केवल परिणामों से सुधार करना जारी रख सकता है — लेकिन केवल तभी जब उसके रोलआउट स्वच्छ हों और टर्मिनल फीडबैक जानकारीपूर्ण हो। यही आश्चर्यजनक हिस्सा है। यह नहीं कि एजेंट पूरी तरह से आत्म-सुधार करता है, बल्कि यह कि वह केवल कार्य करने और जो वापस आता है उसकी भविष्यवाणी करने से बिल्कुल भी सुधार करता है।
यह हमें कहाँ छोड़ता है
ECHO का मुख्य सबक सरल है: एजेंट रोलआउट में अंतिम पुरस्कार की तुलना में अधिक पर्यवेक्षण होता है, और हमें इसका उपयोग करना चाहिए।
एजेंट द्वारा चलाया गया प्रत्येक कमांड एक टर्मिनल प्रतिक्रिया उत्पन्न करता है — stdout, त्रुटियाँ, ट्रेस, फ़ाइलें, लॉग, आदि — और मानक RL उन टोकन का उपयोग केवल अगली कार्रवाई के लिए संदर्भ के रूप में करता है। ECHO उन्हें प्रशिक्षण लक्ष्यों में बदल देता है। किसी शिक्षक मॉडल, अतिरिक्त रोलआउट या अलग विश्व मॉडल की आवश्यकता नहीं है। हम बस उन वातावरण टोकन को फेंकना बंद कर देते हैं जो पहले से ही ट्रांसक्रिप्ट में हैं।
उस छोटे से बदलाव ने तीन आश्चर्यजनक परिणाम दिए: मजबूत RL प्रदर्शन, विशेषज्ञ SFT पर बहुत कम निर्भरता, और कुछ सेटिंग्स में केवल वातावरण बातचीत से वेरिफ़ायर-मुक्त आत्म-सुधार। हमें नहीं लगता कि इसका मतलब है कि पुरस्कार या प्रदर्शन अप्रचलित हैं। विशेषज्ञ ट्रैजेक्ट्री अभी भी रणनीति सिखाती हैं और वेरिफ़ायर सबसे साफ कार्य-स्तरीय संकेत प्रदान करते हैं। लेकिन ECHO बताता है कि "विशेषज्ञ की नकल करें" और "विरल पुरस्कार की प्रतीक्षा करें" के बीच, पर्यवेक्षण का एक घना, कम उपयोग किया गया स्रोत है: एजेंट के स्वयं के कार्यों के परिणाम।
व्यापक विचार सहायक भविष्यवाणी की एक निरंतरता है जिसका RL में एक लंबा इतिहास है, और हाल के काम ने LLM एजेंटों के लिए विश्व-मॉडलिंग ऑब्जेक्टिव को पुनर्जीवित किया है, जैसे, Agent Learning via Early Experience एक्शन-कॉन्सिक्वेंस सिग्नल का उपयोग प्री-RL चरण के रूप में करता है, VAGEN VLM एजेंटों के लिए विश्व-मॉडलिंग पुरस्कार जोड़ता है, RWML अगली-स्थिति भविष्यवाणी पर प्री-ट्रेन करता है, और CWM ऑब्ज़र्वेशन-एक्शन ट्रैजेक्ट्री पर एक कोड मॉडल को मिड-ट्रेन करता है। ECHO उसी विचार का ऑनलाइन, RL-लूप में, CLI-स्वाद वाला संस्करण है।
यह विचार कितनी दूर जा सकता है?
अगला कदम इस वातावरण संकेत को और अधिक शक्तिशाली बनाना है — और परीक्षण करना है कि यह कितना सामान्यीकरण करता है। ECHO कच्चे टर्मिनल आउटपुट का उपयोग करता है क्योंकि वे पहले से ही रोलआउट में हैं, लेकिन सबसे अच्छा सीखने का लक्ष्य एक स्वच्छ और अधिक संक्षिप्त प्रतिनिधित्व हो सकता है: सारांश या कार्य-प्रासंगिक दृश्य। इसके अलावा: हमें किन अवलोकनों पर प्रशिक्षण लेना चाहिए? हमें ट्रैजेक्ट्री को कब फ़िल्टर करना चाहिए? हमें वातावरण भविष्यवाणी को नीति अनुकूलन के मुकाबले कैसे भार देना चाहिए? क्या वही विचार टर्मिनलों से परे काम कर सकता है: ब्राउज़र एजेंटों, मल्टी-टूल सिस्टम, लॉन्ग-होरिज़न कोडिंग एजेंट, या उपयोगकर्ता-सामना करने वाले सहायकों के लिए जहाँ अनुवर्ती, सुधार और प्राथमिकताएँ बातचीत प्रतिक्रिया का एक और रूप हैं?
हमारा दांव यह है कि जहाँ भी कोई एजेंट कार्य करता है और दुनिया टोकन में प्रतिक्रिया करती है, वे प्रतिक्रिया टोकन — या उनके बेहतर प्रतिनिधित्व — को सीखने के संकेत का हिस्सा होना चाहिए। ECHO उस विचार का सबसे सरल संस्करण है जिसके बारे में हम सोच सकते थे, और हमें संदेह है कि 2026 के अंत तक एजेंट RL ट्रेनरों में किसी न किसी रूप में वातावरण-टोकन भविष्यवाणी मानक होगी।
पूरा पेपर और कोड (SkyRL के ऊपर) देखें।
ECHO आज़माएं और हमें बताएं कि आपका एजेंट कितनी तेज़ी से प्रशिक्षित हुआ।
फुटनोट: अपने लैपटॉप पर भूलभुलैया विश्व मॉडल प्रशिक्षित करना... कुछ हद तक
याद है जब मैंने कहा था कि मैंने "एक मूर्खतापूर्ण भूलभुलैया प्रयोग में योगदान दिया"? यह रहा मूर्खतापूर्ण भूलभुलैया प्रयोग
सेटअप ECHO का एक बहुत छोटा संस्करण था: एक छोटे टर्मिनल में एक ग्रिड भूलभुलैया। एजेंट (एक लूप में एक 10M ट्रांसफार्मर) एक दिशा जारी करता है — ऊपर, नीचे, बाएँ, दाएँ — और टर्मिनल उत्तर देता है कि एजेंट अपने "पड़ोसियों" के संबंध में कहाँ है (यह मूल रूप से 2D ग्रिड समस्या में पथ खोज है), और गंतव्य की दूरी। तो रोलआउट बिल्कुल (छोटे मूल्यों के लिए) CLI एजेंट रोलआउट जैसा दिखता है, बस बहुत सरल 😊: कार्रवाई → वातावरण प्रतिक्रिया → कार्रवाई → वातावरण प्रतिक्रिया आदि।
मैंने एक स्क्रैच से 10M पैरामीटर ट्रांसफार्मर पर दो स्थितियों का परीक्षण किया: 1) केवल एक्शन टोकन पर प्रशिक्षण 2) एक्शन टोकन और टर्मिनल की प्रतिक्रिया (पड़ोसी, दूरी, आदि) पर प्रशिक्षण। सभी ताज़ा 6×6 / 7×7 / 8×8 भूलभुलैया पर प्रशिक्षित

क्या यह भूलभुलैया वाली चीज़ Nature का पेपर है? नहीं। लेकिन: मुझे लगता है कि एक बात है जो मैं बना रहा हूँ जो सामान्यीकरण करती रहती है।
लगभग हर साफ विचार का एक सूक्ष्म जगत होता है: एक छोटा संस्करण जिसे आप एक शाम में लैपटॉप पर चला सकते हैं जो आपको बताता है कि क्या विचार को बढ़ाने लायक है।
भूलभुलैया ने यह साबित नहीं किया कि ECHO काम करेगा। इसने मुझे Vaish को Teams संदेश भेजने के लिए पर्याप्त विश्वास दिया, बजाय इसके कि विचार को भूल जाऊं। पता चला कि Vaish स्वतंत्र रूप से उसी विचार के आसपास चक्कर लगा रही थी और जब उसका पहला क्लस्टर रन परिणाम लेकर वापस आया तो मैं रोमांचित और वास्तव में आश्चर्यचकित था। ECHO भूलभुलैया ने संकेत दिया था कि दिशा सही थी, लेकिन यह TerminalBench स्कोर को दोगुना करने, अधिकांश विशेषज्ञ SFT को वसूल करने, या बिना पुरस्कारों के आत्म-सुधार की भविष्यवाणी नहीं कर सकता था। वे Vaish के परिणाम थे। "6×6 भूलभुलैया को कुछ हद तक हल करना" और "TerminalBench पर दोगुना करना" बहुत अलग ज्ञानमीमांसीय अवस्थाएँ हैं।
लेकिन इस परिशिष्ट का मतलब यह नहीं है कि लैपटॉप क्लस्टर प्रयोग की जगह ले लेता है। मुद्दा यह है कि मेरे अधिकांश विचार गलत होते हैं और लैपटॉप प्रयोग (Claude Code और Codex की मदद से) मुझे बताता है कि किसे छोड़ देना चाहिए, इससे पहले कि वे किसी और का समय बर्बाद करें। कभी-कभी कोई विचार बच जाता है, और जब ऐसा होता है, तो वह शायद किसी सहयोगी के समय और GPUs का हकदार बन सकता है।
ECHO उनमें से एक है।





