VaishShrivas ile ortak yazılmıştır.
CLI ajanlarına, RL sırasında olağan GRPO kaybının yanında, terminal yanıtlarını da tahmin etmeyi öğrettik. Değişiklik çok küçük: aynı rollout ve forward pass, ancak terminal çıktı token'larını maskelemeyi bırakıyoruz. Etkisi ise çok büyük: tüm değerlendirmeler iyileşiyor ve ortaya çıkan modeller, terminalin nasıl davrandığını ölçülebilir şekilde öğreniyor.
CLI ajanları, bir terminal modelini bedavaya öğrenebilir — ve bunu daha iyi hareket etmek için kullanabilir!
İşte ECHO: etkileşimin her iki tarafında da eğitim yapan hibrit bir hedef: ajanın yazdıkları ve terminalin geri yazdıkları.
Tam makaleye ve koda (SkyRL üzerine) göz atın.
Bu yazının tamamını okuyacak vaktiniz yoksa, işte bulduklarımız:
- Standart ajan RL, ortamın yanıtını çöpe atar. GRPO, eylem token'ları üzerinde eğitim alır ve terminal yanıtlarını maskeler; oysa bu yanıtlar zaten bağlamdadır, modelden geçer ve ajanın eylemlerinin ortamı nasıl etkilediğine dair temel gerçeklik sinyalleridir.
- ECHO bunu, etkileşimin her iki tarafında da eğitim yaparak düzeltir. Eylem token'larında olağan GRPO kaybını korur ve terminal çıktı token'larında basit bir ortam çapraz entropi kaybı ekler. Herhangi bir GRPO eğitici üzerine birkaç satır koddur. Aynı rollout ve forward pass, sadece logit'ler üzerinde farklı bir maske.
- ECHO çalışıyor ve bedava! ECHO, test ettiğimiz her kriterde Qwen3-8B, OpenThinker-Agent-v1-SFT ve Qwen3-14B'yi geliştiriyor. ECHO ayrıca aynı performansa 2,3 kata kadar daha hızlı ulaşıyor. TerminalBench-2.0 pass@1, hem 8B'de (2,7 → 5,2) hem de 14B'de (5,2 → 10,8) neredeyse ikiye katlanıyor.
- ECHO terminal dinamiklerini öğretiyor! Ayrı tutulan yörüngelerde, ortam-token çapraz entropisi ECHO ile keskin bir şekilde düşerken, düz GRPO ile neredeyse hiç hareket etmiyor. ECHO'nun modele terminalin gerçekte nasıl yanıt verdiğini öğrettiğine dair doğrudan kanıt. Terminal çıktılarını daha iyi tahmin eden aynı kontrol noktaları, daha fazla görevi de çözüyor.
- ECHO, uzman bir öğretmenin yerini alabilir. Hiçbir uzman gösterimi olmayan temel bir Qwen3-8B'den başlayarak ECHO, uzman gösterimleri üzerinde SFT sonrası GRPO'nun elde ettiğine neredeyse ulaşıyor.
- ECHO, ajanların doğrulayıcı ödülleri olmadan kendini geliştirmesini sağlıyor! Hiçbir doğrulayıcı ödülü olmadan, ECHO (herhangi bir GRPO olmadan) ajanın sadece ortamda hareket ederek ve ne olacağını tahmin ederek daha da iyileşmesine izin veriyor.
Bu, basit bir soruyla başladı: her komut bir terminal yanıtı üretiyorsa, RL neden sadece komut üzerinde eğitim alıyor?
Vaish, bunu çözmek için tüm işi yaptı. Ben aptal bir labirent deneyi*, başlık hakkında güçlü bir fikir ve bana ilk sonucu gösterdiğinde söylediğim "vay be" katkısında bulundum. Bize bu tür fikirlerin peşinden gitmemiz için alan — ve GPU'lar — verdiği için Ahmed Awadallah'a teşekkürler, bu fikirler sadece bir araştırma kaşıntısı olarak başlasa bile.
Belirtmekte fayda var: ECHO için ilk küme çalıştırması 29 Mart'ta başlatıldı 😊
Bu çalışma, Microsoft Research bünyesindeki butik bir araştırma laboratuvarı olan AI Frontiers'de yapılmıştır.
Sürekli nasıl öğrenirsiniz?
Bu fikir ilk ortaya çıktığında, kendini geliştirme ve sürekli öğrenme üzerine basit bir soruyla motive edilmişti. Bir ajan, sadece dünyada hareket ederek nasıl daha iyi hale gelir?
Vaish ve ben geçen sonbahardan beri CLI ajanlarında kendini geliştirme hakkında konuşuyorduk, yani çevreyle (diğer adıyla terminalle) etkileşime girerek daha iyi olmanın ne anlama geleceği, özellikle de bir doğrulayıcı olmadan.
Doğrulayıcısız RL, insanların yıllardır üzerinde çalıştığı bir problemdir ve buna yönelik girişimlerin çoğu aynı sorunla karşı karşıyadır: ödül yoksa denetim nereden gelir?
Aynı sıralarda, aptalca bir tweet'im @willccbb ile tekrar sürekli öğrenmeyi tartıştığımız bir görüşmeye yol açtı. Bu sohbet sırasında şöyle aptalca bir şey söylediğimi hatırlıyorum:
Belki de sürekli öğrenme, çevrenin eylemlerinize yanıt olarak size geri verdiği her şey üzerinde eğitim almaktır.

Bu, modele bir şeyler öğretmeli, değil mi?
Görünüşe göre, evet!
Dünya bir kayıp fonksiyonudur!
Bir ajan bir ortamda hareket ettiğinde, ortamın bu eyleme verdiği yanıt her zaman doğrudur.
Fiziksel dünyadan bir örnek: bir lamba anahtarını çevirirseniz, lamba ya yanar ya da yanmaz. Yanmazsa, bu meşru bir yanıttır: size ampul, kablolar, sigorta vb. hakkında bir şey söyler. Her iki durumda da, geri gelen şey, eylemleriniz nedeniyle dünyanın nasıl değiştiğine dair küçük bir bilgi parçasıdır. Elektriğin, anahtarların ve ampullerin tam mekanizmasına maruz kalmazsınız, ancak sonucu görürsünüz. Lamba yandı mı? Ve bu, anahtarları çevirmenin lambaları nasıl yaktığına dair zihinsel bir model oluşturmaya başlamanız için yeterlidir.
Terminal de aynı şekilde çalışır.
Bir bash komutundan sonraki çıktı, komut çalıştırıldıktan sonra bilgisayarın/kabın durumunun nasıl değiştiğine dair küçük bir özettir. stdout, stderr, çıkış kodları, dosya listeleri vb. görürsünüz. Çekirdek durumunu veya işlem ağacını veya çok ayrıntılı bir şeyi görmezsiniz.

Geri gördüğünüz şey, arka planda olanların düşük boyutlu bir izdüşümüdür ve bu aynı zamanda CLI ajanının, yapmaya çalıştığı herhangi bir göreve yönelik bir sonraki eylemi seçmek için kullanacağı şeydir. Ve lamba anahtarında olduğu gibi, bu, sistemin nasıl davrandığına dair zihinsel bir model — ya da isterseniz bir dünya modeli — oluşturmak için yeterli bir sinyaldir.
En iyi kısım, yine sistemin durumunun nasıl değiştiğinin bir yansıması olan terminal çıktısının, her dönüşte sizin için hesaplanan, bedava bir denetim sinyali olmasıdır.
Harika!
Sorun şu ki, standart ajan RL (örneğin SkyRL'deki GRPO) gradyanları yalnızca eylem token'ları aracılığıyla iletir ve terminal çıktı token'larını yok sayar. Oysa terminal çıktısı zaten bağlamdadır. Model ona dikkat eder, ileri geçiş onun için logit'ler hesaplar, ancak eğitici onu kaybın dışında maskeler.
Ne iyi token israfı 😊
Peki ya maskelemeseydik?
Model zaten bu token'larla koşullanmış durumda. Zaten onlar üzerinde bir olasılık dağılımı üretiyor. Bir çapraz entropi kaybı eklemek neredeyse hiçbir maliyet gerektirmez.
Ve eğer eklersek... modelin terminalin gerçekte nasıl davrandığını öğrenmesi için bir nedeni olur ve bu nedenle kendi içinde, üzerinde hareket ettiği sistemin örtük bir modelini oluşturabilir. ls'nin ne döndüreceğini tahmin etmek için modelin, hangi dosyaları yeni oluşturduğunu, neyin nerede olduğunu vb. takip etmesi gerekir.
Ilya'nın dediği gibi:
Bir sonraki token'ı iyi tahmin etmek, o token'ın oluşumuna yol açan temel gerçekliği anladığınız anlamına gelir.
Bizim ortamımızda bu şu anlama gelir: terminal çıktılarını tahmin etmede iyi olan bir ajan, küçük ama gerçek bir anlamda, terminalin örtük bir modelini oluşturmuştur.
Peki ajanı terminal çıktılarını tahmin etmeye nasıl ikna ederiz?
ECHO: Bedel ödemeden bir dünya modeli öğrenin
Bir terminal-ajan yayılımı zaten iki token akışını iç içe geçirir: ajanın eylem token'ları ve ortamın gözlem token'ları. Standart GRPO kaybı yalnızca eylem token'larına uygular.
Bu, özellikle terminal ödülleri seyrek, gecikmeli ve ikili olduğu için israftır. Qwen3-8B ortamımızda, birçok görev için politika içi yayılımların %15'inden azı başarılıdır. Ancak başarısız yörüngeler, başarısız veriler değildir: hala dosya listeleri, hatalar, günlükler, yığın izleri, grep çıktıları ve ajanın komutlarının diğer sonuçlarını içerirler.
Yöntemimiz, bu sonuçlardan öğrenmenin en utanç verici derecede basit yoludur 😊
Eylem token'larında standart GRPO kaybının yanı sıra, ortam-gözlem token'larında uzunluk-normalize edilmiş bir çapraz entropi kaybı ekliyoruz. ECHO, melez hedeftir:
burada Eylemler ajan-eylem konumları ve Gözlemler terminal-çıktı konumlarıdır.
Birkaç teknik ayrıntı:
- ECHO, politika içi öğrenir. ECHO, temel modelden veya bir öğretmenden alınan donmuş bir terminal transkript kümesi üzerinde eğitim almak yerine, RL sırasında mevcut model tarafından üretilen terminal yanıtlarından öğrenir. Ajan daha iyi hale geldikçe, ortamın yeni kısımlarını keşfeder ve yeni eylem → gözlem geçişlerinden taze denetim alır. Daha iyi politikalar daha iyi geri bildirim oluşturur; daha iyi geri bildirim tahmini, politikaya daha iyi eylem öncelikleri verir. Bir döngü! Ne eğlenceli?
- Ortak hedefte λ önemlidir. Çok küçükse, ortam kaybı modeli fazla şekillendirmez. Çok büyükse, politika görev ilerlemesi yerine öngörülebilir çıktılar için optimize edebilir. Dengeyi bulmak gerek!
- Hedef token'lar önemlidir. Gerçek terminal çıktısı üzerinde eğitim alırız, koşum uyarıları üzerinde değil. Uyarıları ezberlemek kolaydır; yararlı sinyal, gerçek terminal yanıtıdır — dosya adları, yığın izleri ve hata mesajları.
Peki bunun maliyeti nedir?
Anlayışlı bir okuyucu sorabilir:
Daha fazla token konumunda gradyanları geri yayarsanız, geri geçiş daha pahalı olmaz mı?
Neredeyse hiç. Geri yayılımın pahalı kısmı, dikkat ve MLP katmanları boyunca yapılan matris çarpımlarıdır ve bunlar, hangi çıktı konumlarının kayba katkıda bulunduğuna bakılmaksızın aynı token dizisi üzerinde çalışır. Her yanıt konumundaki logit'ler GRPO için zaten hesaplanmıştır. Eylem maskesi ve gözlem maskesi, farklı kayıp terimleri için bunların farklı alt kümelerini toplar.
Burada bir saniye duraklayın: Bir dünya modelleme kaybı ekledik ve maliyeti neredeyse SIFIR! Ekstra yayılım, öğretmen modeli veya ekstra ileri geçiş yok.
ECHO daha iyi bir CLI Ajanı eğitmeye yardımcı oluyor mu?
Çok turlu terminal görevlerinde mümkün olan en temiz karşılaştırmayı yaptık: aynı modeller, aynı GRPO tarifi, aynı görevler, aynı yayılım ve dönüş bütçesi, aynı sayıda eğitim adımı. Ajan, n turlardan sonra test durumlarını geçerse Ödül=1, başarısız olursa 0.
Tek fark, terminal-çıktı token'larının da kayba dahil edilip edilmediğidir.
Pembe eğriler ECHO ve deniz yeşili GRPO'dur. Model boyutları ve değerlendirme dilimleri genelinde cevap aynıdır: ortam tahminini eklemek, ajanı önemli ölçüde daha iyi hale getirir.

ECHO, tutulan üç doğrulama setinde de tutarlı bir şekilde performansı artırır — pembe eğriler erken aşamalarda deniz yeşilinden ayrılır ve genellikle yukarıda kalır.
ECHO ayrıca önemli ölçüde daha hızlı öğrenir: ECHO, GRPO'nun Terminal-Bench Lite üzerindeki 500 adımlık performansına 280 adım daha hızlı ulaşır! 2,3 kat hızlanma ve tırmanmaya devam ediyor 😊
Bu sonuçlar, ECHO'nun ardındaki sezgimizi doğrulamaktadır. GRPO yalnızca seyrek, ikili sonuç ödülleriyle eğitim alır. Terminal görevleri gibi, küçük modeller için başarı oranının düşük olduğu zor alanlarda bu, birçok görev için çok az sinyal veya hiç sinyal anlamına gelir.
ECHO, başarısız eylemleri denetime dönüştürerek eğitimi çok daha örnek verimli hale getirir. Bir eylem görevi çözmese bile, terminal yanıtı yine de modele bu eylemin neye yol açtığını öğretir! Ve başarısız eylemlerin sonuçlarını tahmin etmek, ajanın daha iyilerini seçmesine yardımcı olabilir.
Sayıları değerlendirmeler arasında görmeyi tercih ederseniz, aynı hikaye tablo biçiminde:

Her bloktaki son satıra bakın: ECHO. TerminalBench-2.0 pass@1, 8B (2,7 → 5,2) ve 14B (5,2 → 10,8) ölçeklerinde neredeyse ikiye katlanıyor. Ve önemlisi, bu ek veri, yayılım, öğretmen modeli veya farklı bir doğrulayıcıdan kaynaklanmıyor. Yayılım zaten terminal yanıtını içeriyordu. ECHO sadece ondan öğreniyor.
"Performansın ekstra maliyet olmadan neredeyse ikiye katlanması", tüm araştırma kariyeriniz boyunca çok nadiren okuyacağınız bir cümledir 😊.
ECHO, tüm kriterlerde ve model boyutlarında GRPO performansını önemli ölçüde geride bırakır, çok daha örnek verimlidir ve temelde hiçbir maliyeti yoktur. Politikanız geliştikçe bir dünya modeli öğrenirsiniz, bu da politikanın daha hızlı gelişmesine yardımcı olur.
Ancak şüpheciler itiraz edebilir: gerçekten bir dünya modeli öğreniyor musunuz?
Görelim!
ECHO gerçekten terminal dinamiklerini öğreniyor mu?
Burada biraz temkinli olacağız çünkü dünya modelleme topluluğu biraz hararetli olabiliyor.
ECHO'nun en güçlü anlamda bir dünya modeli öğrendiğini iddia etmeyeceğiz. Ancak ECHO'nun, gizli durumları terminalin nasıl davrandığına dair bir şeyler özümsemiş ve terminalin ne yapacağını tahmin etme yeteneği ölçülebilir şekilde gelişmiş bir politika eğittiğini iddia edeceğiz.
Ilya'nın sözünü tersine çevirirseniz, daha yanlışlanabilir bir versiyon elde edersiniz. Bizim ortamımız için şöyle bir şey olurdu:
Model terminal dinamiklerini öğrendiyse, terminal çıktısını tahmin etmede iyi olmalıdır.
Çünkü doğru token'lara tutarlı bir şekilde yüksek olasılık atamanın başka bir yolu yoktur. Daha iyi bir tahminci olan model, bilgi-kuramsal açıdan tahmin ettiği sistemin daha iyi bir sıkıştırıcısıdır.
Bu nedenle soru ampirik hale gelir: ECHO gerçekten modeli terminal çıktısının daha iyi bir tahmincisi yapıyor mu?
Evet. Çok fazla.
Bu testi temiz yapmak için, doğrulama kümelerimizin her biri için yörüngeler oluşturmak üzere daha güçlü bir öğretmen modeli olan Qwen 3 32B'yi (eğitim çalıştırmalarımızın hiçbirinde kullanılmamıştır) kullanıyoruz. Ardından başlangıç politikalarımızı, GRPO ile eğitilmiş politikaları ve ECHO ile eğitilmiş politikaları değerlendirdik ve her modelin ortaya çıkan terminal-çıktı token'ları karşısında ne kadar "şaşırdığını" ölçtük.
Her paneldeki desen aynıdır: GRPO, başlangıç politikasına göre ortam-token çapraz entropisini neredeyse hiç değiştirmez. ECHO ise onu keskin bir şekilde düşürür.

Bu yüzden büyük W ile dünya modeli demeyeceğiz. Ama şunu söyleyeceğiz:
ECHO, üretmedikleri yörüngeler üzerinde, terminal dinamiklerini sıkıştırmada ölçülebilir şekilde daha iyi olan politikalar üretir.
Bu, başlığın yaptığı iddianın işlevsel versiyonudur ve tamamen savunulabilir olan versiyondur.
Şaşırtıcı bulgu 1: ECHO, uzman SFT'ye olan bağımlılığı azaltır
Ajan RL için yaygın bir tarif şudur: önce daha güçlü bir modelden uzman yörüngelerini davranış klonlayın, ardından RL'yi çalıştırın. Bu, ödülün seyrek ve eylem uzayının çok büyük olduğu terminal ajanları için özellikle yaygındır.
Bizim ortamımızda, uzman-SFT temel çizgisi OpenThoughts-Agent-v1-SFT'dir (OT-SFT): daha güçlü bir GLM-4.6 öğretmeni tarafından oluşturulan terminal-ajan gösterimleri üzerinde ince ayar yapılmış Qwen3-8B.
Bu yüzden sorduk: ECHO, öğretmeni davranış klonlamadan, uzman-SFT faydasının ne kadarını geri kazanabilir?
ECHO, uzman SFT'yi atlamanıza izin verebilir mi? Bizim ortamımızda, çoğunlukla evet!

Bu şekil üç çalıştırmayı karşılaştırır: temel model üzerinde düz GRPO, temel model üzerinde ECHO ve SFT'li model üzerinde GRPO (SFT + GRPO). GRPO ile SFT+GRPO arasındaki farka (örneğin, SFT'den başlamanın sağladığı kazanç) göre, ECHO, ITD'de kazancın %104'ünü, Terminal Bench Lite'da (TBLite) %89'unu ve TerminalBench-2.0'da (TB2) pass@1'in %50'sini geri kazanır.
Sonuç, uzman SFT'nin değerinin büyük bir kısmının, modele yalnızca bir uzman strateji önceliği değil, aynı zamanda bir etkileşim önceliği öğretmekten gelebileceğini göstermektedir. Uzman gösterimleri, hem bir terminal ajanı gibi nasıl davranılacağını — dosyaları incelemek, testleri çalıştırmak, geri izlemeleri takip etmek vb. — hem de belirli durumlarda bir uzmanın ne yapacağını gösterir. ECHO bu uzman seçimlerini taklit etmez. Bunun yerine, modeli kendi eylemlerinin terminal sonuçlarını tahmin etmesi için eğitir, böylece hangi komutların yararlı durumu ortaya çıkardığını, hangi hataların teşhis koyduğunu ve hangi terminal çıktı token'larının ilerleme sinyali verdiğini öğrenir. Daha iyi stratejiler daha sonra taklit yerine etkileşim yoluyla ortaya çıkabilir.
Bu aynı zamanda kriter ayrımını yorumlamaya da yardımcı olur. ITD ve TBLite'da ECHO, uzman SFT'ye neredeyse eşit değerdedir; bu, SFT avantajının çoğunun orada daha iyi bir terminal etkileşimi modelinden geldiğini düşündürmektedir. TB2'de ECHO, yine de gösterimler olmadan farkın önemli bir %50'sini geri kazanır. Kalan fark, TB2'nin daha zor olması ve eğitim setinden dağılımsal olarak daha uzak olmasıyla tutarlıdır.
Bunu sabit bir tavan olarak değerlendirmiyoruz: TB2 benzeri görevlerde daha geniş veya daha uzun eğitim, ajanı daha da geliştirmelidir.
Sonuç olarak, uzman SFT'nin modası geçmiş değil, ancak uzman SFT'nin sağladıklarının çoğu daha iyi bir terminal etkileşimi modeli olabilir ve bu kısım doğrudan ortamdan öğrenilebilir.
Alt satır: Terminal öğretmendir!
Şaşırtıcı bulgu 2: Ödüller Olmadan Kendini Geliştirme Kıvılcımları
Şu ana kadar ECHO, yardımcı bir ortam kaybı olan GRPO idi. Doğrulayıcı, ajana görevi çözüp çözmediğini hala söyler ve GRPO, modeli eylem token'ları üzerinde günceller. Yani küçük ekstra bir terimle standart RL kurulumu.
Ancak ECHO, politikaya terminalin nasıl davrandığı hakkında gerçekten bir şeyler öğretiyorsa, o zaman belki de doğrulayıcı sinyaline hiç ihtiyacımız olmayabilir.
Soruyoruz: Doğrulayıcıyı kapatırsak ne olur? Öğrenilecek ödül yok, sadece bu:
Yani model hareket eder, gözlemler, yalnızca kendi eylemlerinin bir sonucu olarak terminal çıktılarını tahmin ederek günceller.
Bu, görev performansını iyileştirmemelidir. Hangi eylemin iyi olduğunu söyleyen bir etiket yoktur. Politika daha iyi hale gelirse, bunun nedeni terminali tahmin etmeyi öğrenmenin politikanın eylem önceliklerini dolaylı olarak yeniden şekillendirmesi olmalıdır.
Bu yüzden denedik!
En güçlü Qwen3-8B+ECHO kontrol noktamızı aldık, GRPO terimini tamamen kaldırdık ve yalnızca ortam çapraz entropi kaybını kullanarak, tutulan görevler üzerinde 100 adım daha eğitim aldık. \\\\Soru, modelin daha önce hiç görmediği, dağılım dışı görevlerde, yalnızca çevreyle etkileşime girerek ve geri geleni tahmin ederek gelişip gelişemeyeceğiydi.
Bu çılgın fikir işe yaradı mı? Bir bakıma evet!

val100'de (dağılım içi): +3.8 puan. ITD'de: +5.2 puan. PyTerm'de (Python ağırlıklı terminal görevlerinden oluşan, tutulan bir dağılım dışı set): temiz araç çağrısı yörüngelerine filtreleme sonrası +10.0 puan.
Yalnızca ortam eğitimi, terminal çıktısı yararlı bir denetim olduğunda politikayı iyileştirir. Hiçbir ödül sinyali olmadan, model yalnızca kendi eylemlerinin neden olduğu çıktıları tahmin etmek için eğitim alır, bu nedenle kazançlar, bu çıktıların yararlı dinamikleri ortaya çıkarıp çıkarmadığına bağlıdır.
Eğitim karışımına yakın olan val100'de, kazanç gerçek ama küçüktür: doygunluk öncesi +3.8 puan. Politika, ECHO eğitimi sırasında yerel dinamiklerin çoğunu zaten öğrenmiştir.
ITD'de, daha zayıf başlangıç politikası gürültülü yörüngeler üretir — geçersiz komutlar, ayrıştırma hataları, çıkmaz döngüler. Temiz yayılımlara filtreleme, sinyali gürültüden arındırır ve +5.2 puan verir.
Ancak tek başına temiz yörüngeler yeterli değildir. Aynı filtreleme TBLite'ı tutarlı bir şekilde iyileştirmezken, PyTerm benzer bir başarı oranından başlayıp aynı tarif altında iyileşti — bu da darboğazın yalnızca politika gücü olmadığını göstermektedir. Temel fark, gözlemlerin ne kadar bilgilendirici olduğudur: Python görevleri yoğun, eylem bağlantılı geri bildirim sağlar (kod → geri izleme → düzeltme), daha geniş terminal görevleri ise durumu dosyalar, yapılandırmalar ve çok adımlı kurulum yoluyla daha dolaylı olarak ortaya çıkarır.
Doğrulayıcısız uyarlamanın mümkün olduğuna inanıyoruz: RL, iyi bir keşif modeli ürettiğinde, ajan bazen yalnızca sonuçlardan gelişmeye devam edebilir — ancak yalnızca yayılımları temizse ve terminal geri bildirimi bilgilendiriciyse. Şaşırtıcı olan kısım da budur. Ajanın mükemmel bir şekilde kendini geliştirmesi değil, sadece hareket ederek ve geri geleni tahmin ederek hiçbir şeyden kendini geliştirebilmesidir.
Bizi bıraktığı yer
ECHO'nun temel dersi basittir: ajan yayılımları, nihai ödülden daha fazla denetim içerir ve bunu kullanmalıyız.
Bir ajanın çalıştırdığı her komut bir terminal yanıtı üretir — stdout, hatalar, izler, dosyalar, günlükler vb. — ve standart RL bu token'ları yalnızca bir sonraki eylem için bağlam olarak kullanır. ECHO onları eğitim hedeflerine dönüştürür. Öğretmen modeli, ekstra yayılım veya ayrı bir dünya modeli gerekmez. Sadece, transkriptte zaten bulunan ortam token'larını çöpe atmayı bırakıyoruz.
Bu küçük değişiklik üç şaşırtıcı sonuca yol açtı: daha güçlü RL performansı, uzman SFT'ye çok daha az bağımlılık ve bazı ortamlarda yalnızca ortam etkileşiminden doğrulayıcısız kendini geliştirme. Bunun ödüllerin veya gösterimlerin modasının geçtiği anlamına geldiğini düşünmüyoruz. Uzman yörüngeleri hala strateji öğretir ve doğrulayıcılar en temiz görev düzeyinde sinyali sağlar. Ancak ECHO, "uzmanı taklit et" ile "seyrek ödülü bekle" arasında, yoğun, az kullanılmış bir denetim kaynağı olduğunu göstermektedir: ajanın kendi eylemlerinin sonuçları.
Daha geniş fikir, RL'de uzun bir geçmişi olan yardımcı tahminin bir devamıdır ve son çalışmalar, LLM ajanları için dünya modelleme hedeflerini canlandırmıştır; örneğin, Agent Learning via Early Experience eylem-sonuç sinyalini bir RL öncesi aşama olarak kullanır, VAGEN VLM ajanları için bir dünya modelleme ödülü ekler, RWML sonraki durum tahmini üzerinde ön eğitim yapar ve CWM bir kod modelini gözlem-eylem yörüngeleri üzerinde orta düzeyde eğitir. ECHO, aynı fikrin çevrimiçi, RL döngüsü içindeki, CLI odaklı versiyonudur.
Bu fikir ne kadar ileri gidebilir?
Bir sonraki adım, bu ortam sinyalini daha güçlü hale getirmek ve ne kadar genelleştiğini test etmektir. ECHO, ham terminal çıktılarını kullanır çünkü bunlar zaten yayılımdadır, ancak en iyi öğrenme hedefi, durumun daha temiz ve daha kompakt bir temsili olabilir: özetler veya görevle ilgili görünümler. Ayrıca: Hangi gözlemler üzerinde eğitim almalıyız? Yörüngeleri ne zaman filtrelemeliyiz? Ortam tahminini politika optimizasyonuna karşı nasıl ağırlıklandırmalıyız? Aynı fikir terminallerin ötesinde de çalışabilir mi: tarayıcı ajanları, çok araçlı sistemler, uzun vadeli kodlama ajanları veya takiplerin, düzeltmelerin ve tercihlerin başka bir etkileşim geri bildirimi biçimi olduğu kullanıcıya dönük asistanlar için?
Tahminimiz şu: Bir ajanın hareket ettiği ve dünyanın token'larla yanıt verdiği her yerde, bu yanıt token'ları — veya bunların daha iyi temsilleri — öğrenme sinyalinin bir parçası olmalıdır. ECHO, aklımıza gelebilecek bu fikrin en basit versiyonudur ve bir tür ortam-token tahmininin 2026'nın sonuna kadar ajan RL eğiticilerinde standart hale geleceğinden şüpheleniyoruz.
Tam makaleye ve koda (SkyRL üzerine) göz atın.
ECHO'yu deneyin ve ajanınızın ne kadar daha hızlı eğitim aldığını bize anlatın.
Dipnot: Dizüstü bilgisayarımda bir labirent dünya modeli eğitmek... bir bakıma
"Aptal bir labirent deneyine" katkıda bulunduğumu söylediğimi hatırlıyor musunuz? İşte aptal labirent deneyi
Kurulum, ECHO'nun minicik bir versiyonuydu: Minik bir terminalde bir ızgara labirenti. Ajan (bir döngü içinde 10M'lik bir dönüştürücü) bir yön belirler — yukarı, aşağı, sol, sağ — ve terminal, ajanın "komşularına" göre nerede olduğu (temelde 2B bir ızgarada yol bulma problemi) ve hedefe olan mesafe ile yanıt verir. Bu nedenle yayılım, bir CLI ajanı yayılımına tamamen (küçük değerler için) benzer, sadece çok daha basittir 😊: eylem → ortam yanıtı → eylem → ortam yanıtı vb.
Sıfırdan 10M parametreli bir dönüştürücü üzerinde iki koşulu test ettim: 1) yalnızca eylem token'ları üzerinde eğitim 2) eylem token'ları ve terminalin yanıtı (komşular, mesafe vb.) üzerinde eğitim. Hepsi yeni 6×6 / 7×7 / 8×8 labirentler üzerinde eğitildi

Bu labirent şeysi bir Nature makalesi mi? Hayır. Ancak: Sanırım sürekli genelleşen bir noktaya değiniyorum.
Neredeyse her temiz fikrin bir mikrokozmosu vardır: bir akşam dizüstü bilgisayarınızda çalıştırabileceğiniz ve fikrin büyütmeye değer olup olmadığını söyleyen küçültülmüş bir versiyonu.
Labirent, ECHO'nun çalışacağını kanıtlamadı. Bana, fikri unutmak yerine Vaish'e bir Teams mesajı göndermem için yeterli inancı verdi. Vaish'in aynı fikir etrafında bağımsız olarak dolaştığı ve ilk küme çalıştırması sonuçlarla döndüğünde çok heyecanlandım ve gerçekten şaşırdım. ECHO labirenti, yönün doğru olduğunu ima etmişti, ancak TerminalBench puanlarını ikiye katlamayı, uzman SFT'nin çoğunu geri kazanmayı veya ödüller olmadan kendini geliştirmeyi tahmin edemezdi. Bunlar Vaish'in sonuçlarıydı. "Bir 6×6 labirenti bir bakıma çözmek" ile "TerminalBench'te ikiye katlamak" çok farklı epistemik durumlardır.
Ancak bu eklemenin amacı, laptopun küme deneyinin yerini alması değil. Önemli olan, fikirlerimin çoğunun yanlış olduğu ve laptop deneyinin (Claude Code ve Codex yardımıyla) hangilerini başkasının zamanını almadan önce elemek gerektiğini söylemesi. Arada sırada bir fikir hayatta kalır ve hayatta kaldığında belki de bir işbirlikçinin zamanını ve GPU'larını hak edebilir.
ECHO bunlardan biri.





