ECHO: 터미널 에이전트의 무료 월드 모델 학습

공동 작성: @VaishShrivas

우리는 CLI 에이전트가 RL 중에 터미널 응답을 예측하도록 학습시켰으며, 기존의 GRPO 손실 함수는 액션 토큰에만 적용했습니다. 변경 사항은 사소합니다. 동일한 롤아웃과 순전파를 사용하지만, 터미널 출력 토큰을 마스킹하지 않습니다. 효과는 엄청납니다. 모든 평가 지표가 개선되었으며, 결과 모델은 터미널이 어떻게 동작하는지 측정 가능하게 학습합니다.

CLI 에이전트는 터미널 모델을 추가 비용 없이 학습할 수 있으며, 이를 통해 더 나은 행동을 할 수 있습니다!

바로 ECHO입니다. 에이전트가 작성한 내용과 터미널이 응답한 내용, 즉 상호작용의 양측 모두를 학습하는 하이브리드 목표 함수입니다.

전체 논문과 SkyRL 기반의 코드를 확인하세요.

이 글을 다 읽을 시간이 없다면, 여기서 찾은 내용을 요약합니다:

표준 에이전트 RL은 환경의 응답을 무시합니다. GRPO는 액션 토큰에 대해 학습하고 터미널 응답을 마스킹합니다. 하지만 이러한 응답은 이미 컨텍스트에 존재하고, 모델을 통과하며, 에이전트의 행동이 환경에 미친 영향에 대한 실제 정보입니다.
ECHO는 상호작용의 양측 모두를 학습하여 이 문제를 해결합니다. 액션 토큰에 대한 일반적인 GRPO 손실을 유지하고, 터미널 출력 토큰에 대한 간단한 환경 교차 엔트로피 손실을 추가합니다. 이는 GRPO 트레이너에 몇 줄의 코드만 추가하면 됩니다. 동일한 롤아웃과 순전파, 단지 로짓에 대한 다른 마스크만 적용됩니다.
ECHO는 효과적이며 추가 비용이 없습니다! ECHO는 Qwen3-8B, OpenThinker-Agent-v1-SFT, Qwen3-14B에서 테스트한 모든 벤치마크에서 성능을 향상시킵니다. 또한 ECHO는 동일한 성능에 도달하는 데 최대 2.3배 더 빠르게 학습됩니다. TerminalBench-2.0 pass@1은 8B(2.7 → 5.2)와 14B(5.2 → 10.8) 모두에서 거의 두 배로 증가합니다.
ECHO는 터미널 동역학을 가르칩니다! 학습되지 않은 궤적에서 환경 토큰 교차 엔트로피는 ECHO를 사용하면 급격히 감소하고 일반 GRPO를 사용하면 거의 변하지 않습니다. 이는 ECHO가 모델에게 터미널이 실제로 어떻게 응답하는지 가르친다는 직접적인 증거입니다. 터미널 출력을 더 잘 예측하는 동일한 체크포인트가 더 많은 작업을 해결합니다.
ECHO는 전문가 교사를 대체할 수 있습니다. 전문가 데모가 없는 기본 Qwen3-8B에서 ECHO는 전문가 데모로 SFT를 수행한 후 GRPO가 달성한 성능과 거의 비슷합니다.
ECHO는 검증자 보상 없이도 에이전트가 자기 개선을 할 수 있도록 합니다! 검증자 보상 없이 ECHO(GRPO 없음)는 에이전트가 환경에서 행동하고 결과를 예측하는 것만으로도 더욱 개선할 수 있도록 합니다.

이 모든 것은 단순한 질문에서 시작되었습니다. 모든 명령이 터미널 응답을 생성하는데, RL은 왜 명령에만 학습을 시킬까?

Vaish가 모든 작업을 수행하여 이를 알아냈습니다. 저는 어리석은 미로 실험*을 제공하고, 제목에 대한 강력한 의견을 제시했으며, 그녀가 첫 번째 결과를 보여주었을 때 "와, 대박"이라고 말했습니다. 이러한 아이디어를 추구할 수 있는 공간과 GPU를 제공해 준 Ahmed Awadallah에게 감사드립니다. 비록 그것이 단순한 연구적 호기심에서 시작되었을지라도 말입니다.

참고로, ECHO의 첫 번째 클러스터 실행은 3월 29일에 시작되었습니다. 😊

이 작업은 Microsoft Research 내의 부티크 연구소인 AI Frontiers에서 수행되었습니다.

어떻게 지속적으로 학습할 수 있을까?

이 아이디어가 처음 떠오른 것은 자기 개선과 지속적 학습에 대한 간단한 질문에서 비롯되었습니다. 에이전트가 세상에서 행동하는 것만으로 어떻게 더 나아질 수 있을까?

Vaish와 저는 작년 가을부터 CLI 에이전트의 자기 개선, 즉 환경(일명 터미널)과의 상호작용을 통해 더 나아진다는 것이 무엇을 의미하는지, 특히 검증자 없이 어떻게 가능한지에 대해 이야기해 왔습니다.

검증자 없는 RL은 사람들이 수년 동안 연구해 온 문제이며, 대부분의 시도는 동일한 문제에 직면합니다. 보상이 없다면 감독 신호는 어디에서 오는가?

비슷한 시기에, 제 어리석은 트윗이 @willccbb와의 통화로 이어져 지속적 학습에 대해 다시 논의하게 되었습니다. 이 대화 중에 저는 다음과 같은 어리석은 말을 한 기억이 납니다.

아마도 지속적 학습은 환경이 당신의 행동에 대한 응답으로 제공하는 모든 것을 학습하는 것일지도 모릅니다.

그것이 모델에게 무언가를 가르쳐 주지 않을까요?

결과적으로, 그렇습니다!

세상은 손실 함수다!

에이전트가 환경에서 행동할 때, 그 행동에 대한 환경의 응답은 항상 사실입니다.

물리적 세계의 예를 들어보겠습니다. 전등 스위치를 켜면 불이 켜지거나 켜지지 않습니다. 켜지지 않는다면, 그것은 합법적인 응답입니다. 전구, 배선, 차단기 등에 대해 무언가를 알려줍니다. 어느 쪽이든, 돌아오는 것은 당신의 행동으로 인해 세상이 어떻게 변했는지에 대한 작은 정보 조각입니다. 전기, 스위치, 전구가 작동하는 전체 메커니즘에 노출되는 것은 아니지만, 결과는 볼 수 있습니다. 불이 켜졌는가? 그리고 그것만으로도 스위치를 켜면 불이 켜진다는 정신 모델을 구축하기 시작하기에 충분합니다.

터미널도 비슷한 방식으로 작동합니다.

bash 명령 후의 출력은 명령이 실행된 후 컴퓨터/컨테이너의 상태가 어떻게 변경되었는지에 대한 작은 요약입니다. stdout, stderr, 종료 코드, 파일 목록 등을 볼 수 있습니다. 커널 상태나 프로세스 트리와 같은 매우 상세한 내용은 볼 수 없습니다.

돌아오는 것은 백그라운드에서 일어난 일의 저차원 투영이며, 이는 CLI 에이전트가 달성하려는 작업을 위해 다음 행동을 선택하는 데 사용할 것입니다. 그리고 전등 스위치의 경우와 마찬가지로, 그것은 시스템이 어떻게 동작하는지에 대한 정신 모델, 즉 세계 모델을 구축하기에 충분한 신호입니다.

가장 좋은 점은, 시스템 상태의 변화를 반영하는 터미널 출력이 모든 단계에서 추가 비용 없이 계산된 감독 신호라는 것입니다.

멋지죠!

문제는 표준 에이전트 RL(예: SkyRL의 GRPO)이 액션 토큰에만 기울기를 전파하고 터미널 출력 토큰을 무시한다는 것입니다. 터미널 출력이 이미 컨텍스트에 존재함에도 불구하고 말입니다. 모델이 그것에 주의를 기울이고, 순전파가 그것에 대한 로짓을 계산하지만, 트레이너는 손실에서 그것을 마스킹합니다.

정말 좋은 토큰을 낭비하는 셈이죠. 😊

그렇다면, 우리가 그렇게 하지 않으면 어떻게 될까요?

모델은 이미 해당 토큰에 조건화되어 있습니다. 이미 그 토큰에 대한 확률 분포를 생성합니다. 교차 엔트로피 손실을 추가하는 것은 본질적으로 비용이 들지 않습니다.

그리고 그렇게 한다면... 모델은 터미널이 실제로 어떻게 동작하는지 배울 이유가 생기고, 따라서 내부적으로 자신이 행동하고 있는 시스템의 암시적 모델을 구축할 수 있습니다. ls가 무엇을 반환할지 예측하려면, 모델은 방금 생성한 파일, 각각의 위치 등을 추적해야 합니다.

일리야가 말했듯이:

다음 토큰을 잘 예측한다는 것은 해당 토큰을 생성하게 한 근본적인 현실을 이해한다는 것을 의미합니다.

우리의 설정에서 이것은 다음을 의미합니다. 터미널 출력을 잘 예측하는 에이전트는 작지만 실제적인 의미에서 터미널의 암시적 모델을 구축했습니다.

그렇다면 어떻게 에이전트가 터미널 출력을 예측하도록 할 수 있을까요?

ECHO: 비용을 지불하지 않고 세상의 모델을 학습하기

터미널 에이전트 롤아웃은 이미 두 가지 토큰 스트림을 혼합합니다. 에이전트의 액션 토큰과 환경의 관찰 토큰입니다. 표준 GRPO는 액션 토큰에만 손실을 적용합니다.

터미널 보상은 드물고, 지연되며, 이진법이기 때문에 이는 특히 낭비적입니다. Qwen3-8B 설정에서 많은 작업에 대해 정책 내 롤아웃의 15% 미만만 성공합니다. 그러나 실패한 궤적은 실패한 데이터가 아닙니다. 여전히 파일 목록, 오류, 로그, 스택 트레이스, grep 출력 및 에이전트 명령의 기타 결과를 포함합니다.

우리의 방법은 이러한 결과로부터 학습하는 가장 간단하고 부끄러울 정도로 간단한 방법입니다. 😊

우리는 액션 토큰에 대한 표준 GRPO 손실과 함께 환경 관찰 토큰에 대한 길이 정규화 교차 엔트로피 손실을 추가합니다. ECHO는 하이브리드 목표 함수입니다:

여기서 Actions는 에이전트 액션 위치이고 Observations는 터미널 출력 위치입니다.

몇 가지 기술적 세부 사항:

ECHO는 정책 내 학습을 수행합니다. 기본 모델이나 교사로부터 고정된 터미널 기록 세트를 학습하는 대신, ECHO는 RL 중에 현재 모델이 생성한 터미널 응답으로부터 학습합니다. 에이전트가越来越好함에 따라 환경의 새로운 부분을 탐색하고 새로운 action → observation 전환으로부터 새로운 감독을 받습니다. 더 나은 정책은 더 나은 피드백을 유도하고, 더 나은 피드백 예측은 정책에 더 나은 행동 사전 확률을 제공합니다. 순환 고리! 재미있지 않나요?
결합 목표 함수에서 λ가 중요합니다. 너무 작으면 환경 손실이 모델을 크게 형성하지 않습니다. 너무 크면 정책이 작업 진행 대신 예측 가능한 출력을 최적화할 수 있습니다. 균형을 맞춰야 합니다!
대상 토큰이 중요합니다. 우리는 실제 터미널 출력에 대해 학습하며, harness 경고에는 학습하지 않습니다. 경고는 암기하기 쉽습니다. 유용한 신호는 실제 터미널 응답, 즉 파일 이름, 스택 트레이스 및 오류 메시지입니다.

그렇다면 이것의 비용은 얼마일까요?

예리한 독자는 이렇게 물을 수 있습니다:

더 많은 토큰 위치에서 기울기를 역전파한다면 역전파 비용이 더 많이 들지 않나요?

거의 그렇지 않습니다. 역전파에서 비용이 많이 드는 부분은 어텐션과 MLP 레이어를 통한 행렬 곱셈이며, 이는 어떤 출력 위치가 손실에 기여하는지와 관계없이 동일한 토큰 시퀀스에 대해 실행됩니다. 모든 응답 위치의 로짓은 이미 GRPO를 위해 계산됩니다. 액션 마스크와 관찰 마스크는 서로 다른 손실 항을 위해 이들 중 서로 다른 하위 집합만 수집합니다.

잠시 멈춰 보세요. 우리는 세계 모델링 손실을 추가했지만, 비용은 기본적으로 ZERO입니다! 추가 롤아웃, 교사 모델, 추가 순전파가 필요 없습니다.

ECHO가 더 나은 CLI 에이전트 학습에 도움이 될까?

우리는 멀티턴 터미널 작업에서 가능한 가장 깨끗한 비교를 실행했습니다. 동일한 모델, 동일한 GRPO 레시피, 동일한 작업, 동일한 롤아웃 및 턴 예산, 동일한 수의 훈련 단계입니다. 에이전트가 n턴 후 테스트 케이스를 통과하면 보상=1, 실패하면 0입니다.

유일한 차이점은 터미널 출력 토큰이 손실에 포함되는지 여부입니다.

분홍색 곡선은 ECHO이고 청록색은 GRPO입니다. 모델 크기와 평가 슬라이스 전반에 걸쳐 답은 동일합니다. 환경 예측을 추가하면 에이전트가 훨씬 더 좋아집니다.

ECHO는 세 가지 보류된 검증 세트 모두에서 일관되게 성능을 향상시킵니다. 분홍색 곡선은 초기에 청록색과 분리되어 일반적으로 위에 유지됩니다.

ECHO는 또한 훨씬 더 빠르게 학습합니다. ECHO는 Terminal-Bench Lite에서 GRPO의 500단계 성능을 280단계 더 빨리 따라잡습니다! 2.3배 속도 향상이며 계속 증가하고 있습니다. 😊

이러한 결과는 ECHO背后的 직관을 뒷받침합니다. GRPO는 드물고 이진법적인 결과 보상만으로 학습합니다. 터미널 작업과 같이 작은 모델의 통과율이 낮은 어려운 영역에서는 많은 작업에 대해 신호가 거의 또는 전혀 없음을 의미합니다.

ECHO는 실패한 행동을 감독으로 전환하여 훈련의 샘플 효율성을 훨씬 높입니다. 행동이 작업을 해결하지 못하더라도 터미널 응답은 여전히 해당 행동이 무엇을 초래했는지 모델에 가르칩니다! 그리고 실패한 행동의 결과를 예측하면 에이전트가 더 나은 행동을 선택하는 데 도움이 될 수 있습니다.

평가 결과를 표 형태로 보고 싶다면, 동일한 내용입니다:

각 블록의 마지막 행을 보세요: ECHO. TerminalBench-2.0 pass@1은 8B(2.7 → 5.2)와 14B(5.2 → 10.8) 규모에서 거의 두 배로 증가합니다. 그리고 중요한 것은, 이것이 추가 데이터, 롤아웃, 교사 모델 또는 다른 검증자로 인한 것이 아니라는 점입니다. 롤아웃에는 이미 터미널 응답이 포함되어 있었습니다. ECHO는 단지 그것으로부터 학습할 뿐입니다.

"추가 비용 없이 성능이 거의 두 배로 증가한다"는 것은 연구 경력 전체에서 거의 읽을 수 없는 문장입니다. 😊

ECHO는 모든 벤치마크와 모델 크기에서 GRPO 성능을 훨씬 능가하며, 샘플 효율성이 훨씬 높고 비용이 거의 들지 않습니다. 정책이 개선됨에 따라 세계 모델을 학습하여 더 빠르게 개선하는 데 도움이 됩니다.

하지만 회의론자들은 반박할 수 있습니다. 정말 세계 모델을 배우는 것일까?

확인해 봅시다!

ECHO가 실제로 터미널 동역학을 학습할까?

세계 모델링 관련 사람들이 조금 과격해질 수 있기 때문에 여기서는 약간 말을 아끼겠습니다.

우리는 ECHO가 가장 강력한 의미의 세계 모델을 학습한다고 주장하지 않습니다. 그러나 ECHO가 숨겨진 상태가 터미널이 어떻게 동작하는지에 대한 무언가를 흡수했고, 터미널이 무엇을 할지 예측하는 능력이 측정 가능하게 향상된 정책을 훈련한다고 주장할 것입니다.

일리야의 인용문을 뒤집으면 더 반증 가능한 버전을 얻을 수 있습니다. 우리의 설정에서는 다음과 같을 것입니다:

모델이 터미널 동역학을 학습했다면 터미널 출력을 예측하는 데 능숙해야 합니다.

올바른 토큰에 지속적으로 높은 확률을 할당하는 다른 방법은 없기 때문입니다. 더 나은 예측기를 가진 모델은 정보 이론적 관점에서 예측하는 시스템의 더 나은 압축기입니다.

따라서 질문은 경험적이 됩니다. ECHO가 실제로 모델을 터미널 출력의 더 나은 예측기로 만드는가?

네. 훨씬 더 좋아집니다.

이 테스트를 명확하게 하기 위해, 우리는 더 강력한 교사 모델 Qwen 3 32B(훈련 실행에 사용되지 않음)를 사용하여 각 검증 세트에 대한 궤적을 생성했습니다. 그런 다음 시작 정책, GRPO로 훈련된 정책, ECHO로 훈련된 정책을 평가하고 각 모델이 결과 터미널 출력 토큰에 얼마나 "놀랐는지" 측정했습니다.

모든 패널에서 패턴은 동일합니다. GRPO는 시작 정책에 비해 환경 토큰 교차 엔트로피를 거의 변경하지 않습니다. ECHO는 급격히 낮춥니다.

따라서 우리는 대문자 W를 사용한 세계 모델이라고 말하지 않을 것입니다. 하지만 우리는 이것을 말할 것입니다:

ECHO는 자신이 생성하지 않은 궤적에서 터미널 동역학을 압축하는 데 측정 가능하게 더 나은 정책을 생성합니다.

이것이 제목이 주장하는 바의 작동 버전이며 완전히 방어 가능한 버전입니다.

놀라운 발견 1: ECHO가 전문가 SFT 의존성을 줄입니다.

에이전트 RL의 일반적인 레시피는 먼저 더 강력한 모델의 전문가 궤적을 행동 복제한 다음 RL을 실행하는 것입니다. 이는 보상이 드물고 액션 공간이 큰 터미널 에이전트에서 특히 일반적입니다.

우리의 설정에서 전문가 SFT 기준선은 OpenThoughts-Agent-v1-SFT(OT-SFT)입니다. 더 강력한 GLM-4.6 교사가 생성한 터미널 에이전트 데모로 미세 조정된 Qwen3-8B입니다.

그래서 우리는 질문했습니다. ECHO가 교사를 행동 복제하지 않고도 전문가 SFT 이점의 얼마나 많은 부분을 회복할 수 있을까?

ECHO가 전문가 SFT를 건너뛸 수 있게 할까? 우리 설정에서는 대체로 그렇습니다!

이 그림은 세 가지 실행을 비교합니다. 기본 모델의 일반 GRPO, 기본 모델의 ECHO, SFTed 모델의 GRPO(SFT + GRPO)입니다. GRPO와 SFT+GRPO 사이의 격차(예: SFT에서 시작하여 얻는 이득)에 비해 ECHO는 ITD에서 104%, Terminal Bench Lite(TBLite)에서 89%, TerminalBench-2.0(TB2) pass@1에서 50%의 이득을 회복합니다.

이 결과는 전문가 SFT 가치의 많은 부분이 전문가 전략 사전 확률뿐만 아니라 상호작용 사전 확률을 모델에 가르치는 것에서 비롯될 수 있음을 시사합니다. 전문가 데모는 터미널 에이전트처럼 행동하는 방법(파일 검사, 테스트 실행, 역추적 따르기 등)과 특정 상태에서 전문가가 무엇을 할지 모두 보여줍니다. ECHO는 이러한 전문가 선택을 모방하지 않습니다. 대신, 모델이 자신의 행동의 터미널 결과를 예측하도록 훈련하여, 어떤 명령이 유용한 상태를 노출하는지, 어떤 오류가 진단적인지, 어떤 터미널 출력 토큰이 진행 상황을 알리는지 학습합니다. 그러면 더 나은 전략이 모방보다는 상호작용을 통해 나타날 수 있습니다.

이는 또한 벤치마크 분할을 해석하는 데 도움이 됩니다. ITD와 TBLite에서 ECHO는 전문가 SFT와 거의 일치하여, SFT 이점의 많은 부분이 더 나은 터미널 상호작용 모델에서 비롯됨을 시사합니다. TB2에서 ECHO는 여전히 격차의 상당한 50%를 회복합니다. 나머지 격차는 TB2가 더 어렵고 훈련 세트와 분포적으로 더 멀리 떨어져 있다는 것과 일치합니다.

우리는 이것을 고정된 한계로 취급하지 않을 것입니다. TB2와 유사한 작업에 대한 더 광범위하거나 더 긴 훈련은 에이전트를 더욱 개선해야 합니다.

따라서 핵심은 전문가 SFT가 쓸모없다는 것이 아니라, 전문가 SFT가 제공하는 많은 부분이 터미널 상호작용에 대한 더 나은 모델일 수 있으며, 그 부분은 환경에서 직접 학습될 수 있다는 것입니다.

결론: 터미널이 교사입니다!

놀라운 발견 2: 보상 없는 자기 개선의 징후

지금까지 ECHO는 보조 환경 손실이 있는 GRPO였습니다. 검증자는 여전히 에이전트에게 작업을 해결했는지 여부를 알려주고, GRPO는 액션 토큰에서 모델을 업데이트합니다. 따라서 약간의 추가 항이 있는 표준 RL 설정입니다.

그러나 ECHO가 정책에게 터미널이 어떻게 동작하는지에 대해 진정으로 무언가를 가르친다면, 검증자 신호가 전혀 필요하지 않을 수도 있습니다.

우리는 질문합니다. 검증자를 끄면 어떻게 될까? 학습할 보상이 없으며, 단지 이것만 있습니다:

즉, 모델이 행동하고, 관찰하고, 자신의 행동의 결과로 터미널 출력을 예측하는 것만으로 업데이트됩니다.

이것은 작업 성능을 향상시키지 않을 것처럼 들립니다. 어떤 행동이 좋았는지 알려주는 레이블이 없습니다. 정책이 좋아진다면, 이는 터미널을 예측하는 법을 배우는 것이 정책의 행동 사전 확률을 간접적으로 재형성하기 때문일 것입니다.

그래서 우리는 시도해 보았습니다!

우리는 가장 강력한 Qwen3-8B+ECHO 체크포인트를 가져와 GRPO 항을 완전히 제거하고, 환경 교차 엔트로피 손실만을 사용하여 보류된 작업에 대해 100단계 더 훈련했습니다. **질문은 모델이 이전에 본 적이 없는 OOD 작업에서 환경과 상호 작용하고 돌아오는 것을 예측하는 것만으로 개선될 수 있는지였습니다.

이 말도 안 되는 아이디어가 효과가 있었을까요? 어느 정도는 그랬습니다!

val100(분포 내)에서: +3.8 pp. ITD에서: +5.2 pp. PyTerm(보류된 Python 중심 터미널 작업의 OOD 세트)에서: 깨끗한 도구 호출 궤적으로 필터링한 후 +10.0 pp.

환경 전용 훈련은 터미널 출력이 유용한 감독인 경우 정책을 개선합니다. 보상 신호가 없으면 모델은 자신의 행동으로 인한 출력을 예측하는 것만으로 훈련되므로, 이득은 해당 출력이 유용한 동역학을 노출하는지 여부에 달려 있습니다.

훈련 혼합에 가까운 val100에서 이득은 실제이지만 작습니다. 포화되기 전에 +3.8 pp입니다. 정책은 ECHO 훈련 중에 이미 대부분의 로컬 동역학을 학습했습니다.

ITD에서 더 약한 시작 정책은 잡음이 많은 궤적(잘못된 명령, 구문 분석 오류, 데드엔드 루프)을 생성합니다. 깨끗한 롤아웃으로 필터링하면 신호의 잡음이 제거되고 +5.2 pp가 제공됩니다.

그러나 깨끗한 궤적만으로는 충분하지 않습니다. 동일한 필터링이 TBLite를 일관되게 개선하지는 않은 반면, PyTerm은 유사한 통과율에서 시작했지만 동일한 레시피로 개선되었습니다. 이는 병목 현상이 단순히 정책 강도가 아님을 시사합니다. 주요 차이점은 관찰이 얼마나 유익한지입니다. Python 작업은 코드 → 역추적 → 수정과 같은 조밀한 행동 연결 피드백을 제공하는 반면, 더 광범위한 터미널 작업은 파일, 구성 및 다단계 설정을 통해 상태를 더 간접적으로 드러냅니다.

우리는 검증자 없는 적응이 가능하다고 믿습니다. RL이 괜찮은 탐색 모델을 생성하면, 에이전트는 때때로 결과만으로 계속 개선할 수 있습니다. 하지만 그 롤아웃이 깨끗하고 터미널 피드백이 유익한 경우에만 가능합니다. 그것이 놀라운 부분입니다. 에이전트가 완벽하게 자기 개선한다는 것이 아니라, 행동하고 돌아오는 것을 예측하는 것만으로 전혀 개선한다는 것입니다.

이것이 우리를 어디로 이끄는가

ECHO의 핵심 교훈은 간단합니다. 에이전트 롤아웃에는 최종 보상보다 더 많은 감독이 포함되어 있으며, 우리는 그것을 활용해야 합니다.

에이전트가 실행하는 모든 명령은 터미널 응답(stdout, 오류, 트레이스, 파일, 로그 등)을 생성하며, 표준 RL은 이러한 토큰을 다음 행동의 컨텍스트로만 사용합니다. ECHO는 이를 훈련 대상으로 전환합니다. 교사 모델, 추가 롤아웃 또는 별도의 세계 모델이 필요하지 않습니다. 우리는 단지 기록에 이미 있는 환경 토큰을 버리는 것을 중단할 뿐입니다.

그 작은 변화는 세 가지 놀라운 결과로 이어졌습니다. 더 강력한 RL 성능, 전문가 SFT에 대한 의존성 훨씬 감소, 그리고 일부 설정에서는 환경 상호 작용만으로 검증자 없는 자기 개선이 가능합니다. 우리는 이것이 보상이나 데모가 쓸모없다는 것을 의미한다고 생각하지 않습니다. 전문가 궤적은 여전히 전략을 가르치고 검증자는 가장 깨끗한 작업 수준 신호를 제공합니다. 그러나 ECHO는 "전문가를 모방하라"와 "희소한 보상을 기다려라" 사이에 밀집되고 활용도가 낮은 감독 소스, 즉 에이전트 자신의 행동의 결과가 있음을 시사합니다.

더 넓은 아이디어는 RL에서 오랜 역사를 가진 보조 예측의 연속이며, 최근 연구는 LLM 에이전트를 위한 세계 모델링 목표를 부활시켰습니다. 예를 들어, Agent Learning via Early Experience는 행동 결과 신호를 사전 RL 단계로 사용하고, VAGEN은 VLM 에이전트를 위한 세계 모델링 보상을 추가하며, RWML은 다음 상태 예측에 대해 사전 훈련하고, CWM은 관찰 행동 궤적에 대해 코드 모델을 중간 훈련합니다. ECHO는 동일한 아이디어의 온라인, RL-루프 내, CLI 버전입니다.

이 아이디어는 얼마나 멀리 갈 수 있을까요?

다음 단계는 이 환경 신호를 더 강력하게 만들고, 그것이 얼마나 일반화되는지 테스트하는 것입니다. ECHO는 이미 롤아웃에 있기 때문에 원시 터미널 출력을 사용하지만, 가장 좋은 학습 대상은 더 깨끗하고 간결한 표현, 즉 상태의 요약 또는 작업 관련 보기일 수 있습니다. 또한, 어떤 관찰에 대해 훈련해야 할까? 언제 궤적을 필터링해야 할까? 환경 예측과 정책 최적화의 가중치는 어떻게 해야 할까? 동일한 아이디어가 터미널을 넘어 브라우저 에이전트, 다중 도구 시스템, 장기 코딩 에이전트 또는 후속 조치, 수정 및 선호도가 또 다른 형태의 상호 작용 피드백인 사용자 대면 어시스턴트에서도 작동할 수 있을까?

우리의 생각은 에이전트가 행동하고 세상이 토큰으로 응답하는 모든 곳에서 해당 응답 토큰(또는 더 나은 표현)이 학습 신호의 일부가 되어야 한다는 것입니다. ECHO는 우리가 생각할 수 있는 가장 간단한 버전이며, 2026년 말까지 에이전트 RL 트레이너에서 환경 토큰 예측의 어떤 형태가 표준이 될 것이라고 생각합니다.

전체 논문과 SkyRL 기반의 코드를 확인하세요.

ECHO를 사용해 보고 에이전트가 얼마나 더 빨리 훈련되었는지 알려주세요.

각주: 내 노트북에서 미로 세계 모델 훈련하기... 약간

제가 "어리석은 미로 실험을 제공했다"고 말한 것을 기억하시나요? 바로 그 어리석은 미로 실험입니다.

설정은 ECHO의 아주 작은 버전이었습니다. 작은 터미널의 그리드 미로입니다. 에이전트(루프 안의 10M 트랜스포머)는 방향(위, 아래, 왼쪽, 오른쪽)을 발행하고, 터미널은 "이웃"과 관련하여 에이전트의 위치와 목적지까지의 거리로 응답합니다. 따라서 롤아웃은 (작은 값에 대해 정확히) CLI 에이전트 롤아웃과 똑같이 보이지만 훨씬 간단합니다 😊: 액션 → 환경 응답 → 액션 → 환경 응답 등.

저는 처음부터 만든 10M 파라미터 트랜스포머에서 두 가지 조건을 테스트했습니다. 1) 액션 토큰에만 훈련 2) 액션 토큰과 터미널 응답(이웃, 거리 등)에 대해 훈련. 모두 새로운 6×6 / 7×7 / 8×8 미로에서 훈련되었습니다.

이 미로 시뮬레이션이 Nature 논문일까요? 아닙니다. 하지만: 제가 계속 주장해 온 한 가지 요점이 계속 일반화되고 있다고 생각합니다.

거의 모든 깨끗한 아이디어에는 축소판이 있습니다. 노트북에서 저녁에 실행할 수 있는 축소 버전으로, 아이디어를 확장할 가치가 있는지 알려줍니다.

미로는 ECHO가 작동할 것임을 증명하지는 않았습니다. 그것은 제게 Vaish에게 Teams 메시지를 보낼 충분한 확신을 주었고, 아이디어를 잊지 않게 해주었습니다. Vaish가 독립적으로 동일한 아이디어를 연구하고 있었고, 그녀의 첫 번째 클러스터 실행 결과가 나왔을 때 저는 기뻤고 진심으로 놀랐습니다. ECHO 미로는 방향이 옳다는 것을 암시했지만, TerminalBench 점수를 두 배로 늘리거나, 전문가 SFT의 대부분을 회복하거나, 보상 없이 자기 개선하는 것을 예측할 수는 없었습니다. 그것들은 Vaish의 결과였습니다. "6×6 미로를 대충 해결하는 것"과 "TerminalBench에서 점수를 두 배로 늘리는 것"은 매우 다른 인식 상태입니다.

하지만 이 덧붙임의 요점은 노트북이 클러스터 실험을 대체한다는 것이 아니다. 요점은 내 아이디어 대부분이 틀렸다는 것이며, 노트북 실험(Claude Code 와 Codex 의 도움으로)은 다른 사람들의 시간을 낭비하게 만들기 전에 어떤 아이디어를 포기해야 할지를 알려준다. 때때로 아이디어 하나가 살아남는데, 그렇게 되면 협력자의 시간과 GPU 를 사용할 자격을 얻을 수도 있다.

ECHO 는 그중 하나이다.

어떻게 지속적으로 학습할 수 있을까?

세상은 손실 함수다!

ECHO: 비용을 지불하지 않고 세상의 모델을 학습하기

ECHO가 더 나은 CLI 에이전트 학습에 도움이 될까?

ECHO가 실제로 터미널 동역학을 학습할까?

놀라운 발견 1: ECHO가 전문가 SFT 의존성을 줄입니다.

놀라운 발견 2: 보상 없는 자기 개선의 징후

이것이 우리를 어디로 이끄는가

각주: 내 노트북에서 미로 세계 모델 훈련하기... 약간

Use YouMind to read viral articles deeply

최근 바이럴 아티클

Complete Guide to Claude Fable 5's 'Agent Functions'

Everything Fable 5.

Why Can't We Meet Deadlines? The Causes and Solutions Identified by a Nobel Laureate in 1979

Scaling Laws, Honestly

The Fable Loop Library: 25 Workflows on Autopilot

Fable 5 Practical Guide: Discovering Your Unknowns

ECHO: 터미널 에이전트의 무료 월드 모델 학습

어떻게 지속적으로 학습할 수 있을까?

세상은 손실 함수다!

ECHO: 비용을 지불하지 않고 세상의 모델을 학습하기

ECHO가 더 나은 CLI 에이전트 학습에 도움이 될까?

ECHO가 실제로 터미널 동역학을 학습할까?

놀라운 발견 1: ECHO가 전문가 SFT 의존성을 줄입니다.

놀라운 발견 2: 보상 없는 자기 개선의 징후

이것이 우리를 어디로 이끄는가

각주: 내 노트북에서 미로 세계 모델 훈련하기... 약간

Use YouMind to read viral articles deeply

당신의 Markdown을 깔끔한 𝕏 글로

최근 바이럴 아티클

Complete Guide to Claude Fable 5's 'Agent Functions'

Everything Fable 5.

Why Can't We Meet Deadlines? The Causes and Solutions Identified by a Nobel Laureate in 1979

Scaling Laws, Honestly

The Fable Loop Library: 25 Workflows on Autopilot

Fable 5 Practical Guide: Discovering Your Unknowns