ECHO: ターミナルエージェントが世界モデルを無料で学習

@DimitrisPapail
英語2 か月前 · 2026年5月18日
474K
922
115
51
1.2K

TL;DR

Microsoft の研究者が発表した ECHO は、CLI エージェントがターミナル応答を予測するように学習するハイブリッド RL 目的関数です。これにより、学習の高速化、ダイナミクスモデリングの向上、専門家データへの依存度の低減を実現します。

Co‑written with @VaishShrivas

私たちは、CLI エージェントに対して、行動に対する通常の GRPO 損失とともに、RL 中にターミナルの応答を予測するように学習させました。変更点はわずかです。同じロールアウトとフォワードパスですが、ターミナル出力トークンのマスキングをやめただけです。効果は絶大で、すべての評価指標が向上し、結果として得られるモデルはターミナルの動作を実際に学習します。

CLI エージェントはターミナルモデルを無料で学習し、それをより良い行動に活用できます!

これが ECHO です。エージェントが書き出すものとターミナルが返すものという、インタラクションの両側で学習するハイブリッド目的関数です。

詳細は、完全な論文と、SkyRL 上に構築したコードをご覧ください。

この投稿を読む時間がない方のために、わかったことを簡単にまとめます。

  • 標準的なエージェント RL は、環境からの応答を破棄します。GRPO は行動トークンに対して学習し、ターミナルの応答をマスクします。これらの応答はすでにコンテキストに含まれ、モデルを通過し、エージェントの行動が環境に与えた影響に関する正解シグナルであるにもかかわらずです。
  • ECHO は、インタラクションの両側で学習することでこの問題を修正します。行動トークンに対する通常の GRPO 損失を維持し、ターミナル出力トークンに対する単純な環境交差エントロピー損失を追加します。これは、GRPO トレーナーに数行のコードを追加するだけです。同じロールアウトとフォワードパスで、ロジットに対するマスクが異なるだけです。
  • ECHO は機能し、しかも無料です。ECHO は、テストしたすべてのベンチマークにおいて、Qwen3-8B、OpenThinker-Agent-v1-SFT、Qwen3-14B を向上させます。また、同じパフォーマンスに達するまで最大 2.3 倍高速に学習できます。TerminalBench-2.0 の pass@1 は、8B(2.7 → 5.2)と 14B(5.2 → 10.8)の両方でほぼ倍増します。
  • ECHO はターミナルのダイナミクスを教えます。未使用の軌道上では、環境トークンの交差エントロピーは ECHO で急激に低下し、単純な GRPO ではほとんど動きません。ECHO がモデルにターミナルが実際にどのように応答するかを教えているという直接的な証拠です。ターミナル出力をより良く予測する同じチェックポイントが、より多くのタスクを解決します。
  • ECHO は専門家の教師の代わりになります。専門家のデモンストレーションがないベースの Qwen3-8B から、ECHO は専門家のデモンストレーションによる SFT 後の GRPO にほぼ匹敵します。
  • ECHO は、検証者による報酬なしでエージェントの自己改善を可能にします。検証者の報酬なしでも、ECHO(GRPO なし)は、エージェントが環境内で行動し、何が起こるかを予測するだけでさらに改善できるようにします。

これは単純な疑問から始まりました。すべてのコマンドがターミナル応答を生成するのに、なぜ RL はコマンドのみで学習するのか?

Vaish がそれを解明するためのすべての作業を行いました。私は馬鹿げた迷路実験*、タイトルに対する強い意見、そして彼女が最初の結果を見せてくれたときに「なんてこった」と言ったことくらいで貢献しました。Ahmed Awadallah には、研究上のちょっとした好奇心から始まったこのようなアイデアを追求するための時間と GPU を提供してくれたことに感謝します。

特筆すべき点:ECHO の最初のクラスター実行は 3 月 29 日に開始されました 😊

この研究は、Microsoft Research 内のブティック研究ラボである AI Frontiers で行われました。

どうすれば継続的に学習できるのか?

このアイデアが最初に現れたのは、自己改善と継続的学習に関する単純な疑問が動機でした。エージェントは、世界で行動するだけでどのように向上するのでしょうか?

Vaish と私は昨年の秋から、CLI エージェントの自己改善について話し合っていました。つまり、環境(別名ターミナル)との相互作用から向上するとはどういうことか、特に検証者なしで、ということです。

検証者なしの RL は、何年も前から人々が取り組んできた問題であり、その試みのほとんどは同じ問題に直面します。報酬がない場合、監督信号はどこから来るのでしょうか?

同じ頃、私の馬鹿げた Twitter の投稿がきっかけで、@willccbb と継続的学習について再び話す機会がありました。その会話の中で、私は次のような馬鹿げたことを言ったのを覚えています。

もしかすると、継続的学習とは、環境があなたの行動に対する応答として返してくるものすべてを学習することなのかもしれない。

Dimitris Papailiopoulos - inline image

それでモデルは何かを学ぶはずですよね?

結局、その通りでした!

世界は損失関数だ!

エージェントが環境内で行動するとき、その行動に対する環境の応答は常に真実です。

物理世界の例:ライトのスイッチをオンにすると、ライトが点くか、点かないかです。点かない場合、それも正当な応答です。それは電球、配線、ブレーカーなどについて何かを教えてくれます。いずれにせよ、返ってくるものは、あなたの行動によって世界がどのように変化したかという小さな情報です。電気、スイッチ、電球の完全なメカニズムにさらされるわけではありませんが、結果は目にします。ライトは点いたか? そして、それだけで、スイッチをオンにするとライトが点くというメンタルモデルを構築し始めるのに十分です。

ターミナルも同じように機能します。

bash コマンドの後の出力は、コマンドが実行された後にコンピュータ/コンテナの状態がどのように変化したかを小さくまとめたものです。stdout、stderr、終了コード、ファイル一覧などが表示されます。カーネルの状態やプロセスツリーなどの詳細なものは見えません。

Dimitris Papailiopoulos - inline image

返ってくるものは、バックグラウンドで起こったことの低次元投影であり、CLI エージェントが達成しようとしているタスクに向けて次のアクションを選択するために使用するものです。そして、ライトのスイッチと同様に、それはシステムの動作方法に関するメンタルモデル(あるいは世界モデル)を構築するのに十分なシグナルです。

最も良い点は、ターミナル出力(繰り返しますが、これはシステムの状態がどのように変化したかを反映したものです)が、すべてのターンで無料で計算された教師信号であることです。

すごいでしょう?

問題は、標準的なエージェント RL(例: SkyRL の GRPO)が、行動トークンにのみ勾配を流し、ターミナル出力トークンを無視することです。ターミナル出力がすでにコンテキストに含まれているにもかかわらずです。モデルはそれに注意を払い、フォワードパスはそのロジットを計算しますが、トレーナーは損失からそれをマスクします。

なんてもったいないトークンでしょう 😊

では、もしマスクしなかったらどうなるでしょうか?

モデルはすでにそれらのトークンを条件としています。すでにそれらの確率分布を生成しています。交差エントロピー損失を追加するコストは実質的にゼロです。

そして、もし追加すると…モデルはターミナルが実際にどのように動作するかを学習する理由が生まれ、その結果、内部に、自身が作用しているシステムの暗黙のモデルを構築することができます。ls が何を返すかを予測するために、モデルは自身が作成したファイル、どこに何があるかなどを追跡する必要があります。

Ilya が言ったように:

次のトークンをうまく予測することは、そのトークンを生成した根底にある現実を理解することを意味します。

私たちの設定では、それは次のことを意味します:ターミナル出力を予測するのが得意なエージェントは、小さいながらも現実的な意味で、ターミナルの暗黙のモデルを構築しています。

では、どうすればエージェントにターミナル出力を予測させることができるのでしょうか?

ECHO:支払いなしで世界のモデルを学習する

ターミナルエージェントのロールアウトは、すでに 2 つのトークンストリームをインターリーブしています。エージェントの行動トークンと環境の観測トークンです。標準的な GRPO は、行動トークンにのみ損失を適用します。

これは特に無駄です。なぜなら、ターミナルの報酬はまばらで、遅延があり、二値的だからです。私たちの Qwen3-8B の設定では、多くのタスクでオン・ポリシーのロールアウトの 15% 未満しか成功しません。しかし、失敗した軌道は無駄なデータではありません。それらには、ファイル一覧、エラー、ログ、スタックトレース、grep 出力、およびエージェントのコマンドの結果が依然として含まれています。

私たちの方法は、それらの結果から学習する最も恥ずかしいほど単純な方法です 😊

環境観測トークンに対して、長さ正規化された交差エントロピー損失を、行動トークンに対する標準的な GRPO 損失と一緒に追加します。ECHO はハイブリッド目的関数です:

ここで、Actions はエージェント行動の位置、Observations はターミナル出力の位置です。

いくつかの技術的な詳細:

  • ECHO はオン・ポリシーで学習します。ベースモデルや教師からの固定されたターミナル書き起こしセットで学習するのではなく、ECHO は RL 中に現在のモデルによって生成されたターミナル応答から学習します。エージェントが良くなるにつれて、環境の新しい部分を探索し、新しい行動→観測の遷移から新鮮な教師信号を得ます。より良い方策はより良いフィードバックを誘発し、より良いフィードバック予測は方策により良い行動の事前分布を与えます。ループです!楽しいでしょう?
  • 結合目的関数では、λ が重要です。非常に小さい場合、環境損失はモデルをあまり形成しません。大きすぎる場合、方策はタスクの進捗ではなく、予測可能な出力のために最適化できます。バランスを取る必要があります!
  • ターゲットトークンは重要です。実際のターミナル出力で学習し、ハーネスの警告ではありません。警告は覚えやすいですが、有用な信号は実際のターミナル応答(ファイル名、スタックトレース、エラーメッセージ)です。

では、これにはどのくらいのコストがかかるのでしょうか?

鋭い読者はこう尋ねるかもしれません:

より多くのトークン位置で勾配を逆伝播する場合、逆伝播はより高くつくのではないですか?

ほとんどそうではありません。逆伝播の高コスト部分は、アテンションと MLP 層を通る行列積であり、これらは損失に寄与する出力位置に関係なく、同じトークンシーケンスに対して実行されます。すべての応答位置におけるロジットは、GRPO のためにすでに計算されています。行動マスクと観測マスクは、異なる損失項のためにそれらの異なるサブセットを収集するだけです。

ここで少し立ち止まってください。我々は世界モデリング損失を追加しましたが、そのコストは基本的にゼロです! 追加のロールアウト、教師モデル、追加のフォワードパスはありません。

ECHO はより良い CLI エージェントの訓練に役立つのか?

私たちは、マルチターンのターミナルタスクで可能な限りクリーンな比較を行いました。同じモデル、同じ GRPO レシピ、同じタスク、同じロールアウトとターンの予算、同じ訓練ステップ数です。エージェントが n ターン後にテストケースに合格すれば報酬 = 1、失敗すれば 0 です。

唯一の違いは、ターミナル出力トークンも損失に含めるかどうかです。

ピンクの曲線が ECHO で、青緑が GRPO です。モデルサイズと評価スライス全体で、答えは同じです。環境予測を追加することで、エージェントは大幅に向上します。

Dimitris Papailiopoulos - inline image

ECHO は、保持された 3 つの検証セットすべてで一貫してパフォーマンスを向上させます。ピンクの曲線は初期段階で青緑から分離し、一般的に上にあります。

ECHO はまた、かなり速く学習します。ECHO は、GRPO の 500 ステップのパフォーマンスに、Terminal-Bench Lite で 280 ステップ速く達します! 2.3 倍の高速化で、さらに上昇し続けます 😊

これらの結果は、ECHO の背後にある直感を裏付けています。GRPO は、まばらで二値的な結果の報酬のみで学習します。ターミナルタスクのように、小さなモデルでは合格率が低い難しいドメインでは、これは多くのタスクにとってほとんど、またはまったく信号がないことを意味します。

ECHO は、失敗した行動を教師信号に変えることで、訓練をはるかにサンプル効率よくします。行動がタスクを解決しない場合でも、ターミナル応答は依然としてその行動が何を引き起こしたかをモデルに教えます! そして、失敗した行動の結果を予測することは、エージェントがより良い行動を選択するのに役立ちます。

数値を見たい場合は、同じ話を表形式で示します:

Dimitris Papailiopoulos - inline image

各ブロックの最後の行を見てください:ECHO です。TerminalBench-2.0 の pass@1 は、8B(2.7 → 5.2)と 14B(5.2 → 10.8)のスケールでほぼ倍増しています。 そして重要なことに、これは追加のデータ、ロールアウト、教師モデル、または異なる検証者によるものではありません。ロールアウトにはすでにターミナル応答が含まれていました。ECHO はそれから学習するだけです。

「パフォーマンスが追加コストなしでほぼ倍増する」という一文は、研究キャリア全体を通じてめったに読むことはありません 😊。

ECHO は、すべてのベンチマークとモデルサイズにおいて GRPO のパフォーマンスを大幅に上回り、サンプル効率がはるかに高く、コストは基本的にゼロです。方策が向上するにつれて世界モデルを学習し、それがさらに速い向上を助けます。

しかし、懐疑論者は反論するかもしれません:本当に世界モデルを学習しているのか?

見てみましょう!

ECHO は実際にターミナルのダイナミクスを学習するのか?

ここでは少し控えめに言います。なぜなら、世界モデリングのコミュニティは少し熱くなることがあるからです。

ECHO が最も強い意味での世界モデルを学習するとは主張しません。しかし、ECHO が訓練する方策は、その隠れ状態がターミナルの動作について何かを吸収しており、ターミナルが何をするかを予測する能力が測定可能に向上していることを主張します。

Ilya の言葉を逆にすると、より反証可能なバージョンが得られます。私たちの設定では、次のようになります:

モデルがターミナルのダイナミクスを学習したなら、ターミナル出力を予測するのが得意でなければならない。

なぜなら、正しいトークンに一貫して高い確率を割り当てる他の方法はないからです。より良い予測器であるモデルは、情報理論的には、予測しているシステムのより良い圧縮器です。

そこで、問題は経験的になります:ECHO は実際にモデルをターミナル出力のより良い予測器にするのか?

はい。はるかに良くなります。

このテストをクリーンにするために、より強力な教師モデル Qwen 3 32B(私たちの訓練実行では使用していない)を使用して、各検証セットの軌道を生成します。次に、開始方策、GRPO で訓練された方策、ECHO で訓練された方策を評価し、各モデルが結果のターミナル出力トークンに対してどれだけ「驚いたか」を測定しました。

パターンはすべてのパネルで同じです。GRPO は、開始方策と比較して環境トークンの交差エントロピーをほとんど変化させません。ECHO はそれを急激に低下させます。

Dimitris Papailiopoulos - inline image

ですから、大文字の W で世界モデルとは言いません。しかし、次のことは言います:

ECHO は、生成しなかった軌道上で、ターミナルのダイナミクスを圧縮する能力が測定可能に優れた方策を生成します。

これは、タイトルが主張していることの操作的なバージョンであり、完全に防御可能なバージョンです。

驚くべき発見 1:ECHO はエキスパート SFT への依存を減らす

エージェント RL の一般的なレシピは、まずより強力なモデルからエキスパートの軌道を行動クローンし、その後 RL を実行することです。これは、報酬がまばらで行動空間が巨大なターミナルエージェントでは特に一般的です。

私たちの設定では、エキスパート SFT ベースラインは OpenThoughts-Agent-v1-SFT(OT-SFT)です。これは、より強力な GLM-4.6 教師によって生成されたターミナルエージェントのデモンストレーションで微調整された Qwen3-8B です。

そこで、私たちは尋ねました:ECHO は、教師を行動クローンすることなしに、そのエキスパート SFT の利点のどれだけを取り戻せるのか?

ECHO はエキスパート SFT をスキップできるのか? 私たちの設定では、ほとんど可能です!

Dimitris Papailiopoulos - inline image

この図は、3 つの実行を比較しています。ベースモデルでの単純な GRPO、ベースモデルでの ECHO、そして SFT されたモデルでの GRPO(SFT + GRPO)です。GRPO と SFT+GRPO の間のギャップ(例えば、SFT から開始することで得られる利得)と比較して、ECHO は ITD でギャップの 104%、Terminal Bench Lite(TBLite)で 89%、TerminalBench-2.0(TB2)pass@1 で 50% を取り戻しています。

この結果は、エキスパート SFT の価値の大部分は、エキスパート戦略の事前分布だけでなく、相互作用の事前分布をモデルに教えることから来る可能性があることを示唆しています。エキスパートのデモンストレーションは、ターミナルエージェントのように振る舞う方法(ファイルの検査、テストの実行、トレースバックの追跡など)と、特定の状態でエキスパートが何をするかの両方を示します。ECHO はそれらのエキスパートの選択を模倣しません。代わりに、モデルが自身の行動のターミナル上の結果を予測するように訓練し、どのコマンドが有用な状態を露出するか、どのエラーが診断的であるか、どのターミナル出力トークンが進捗を示すかを学習します。より良い戦略は、模倣ではなく相互作用を通じて現れることができます。

これはまた、ベンチマークの分割を解釈するのにも役立ちます。ITD と TBLite では、ECHO はエキスパート SFT にほぼ匹敵し、そこでの SFT の利点の多くはターミナル相互作用のより良いモデルから得られることを示唆しています。TB2 では、ECHO は依然としてギャップの 50% を実質的に取り戻しています。残りのギャップは、TB2 がより難しく、訓練セットから分布的に遠いことと一致しています。

これは固定された上限として扱うべきではありません。TB2 のようなタスクでのより広範またはより長い訓練は、エージェントをさらに改善するはずです。

ですから、重要なのはエキスパート SFT が時代遅れになったということではなく、エキスパート SFT がもたらすものの多くはターミナル相互作用のより良いモデルであり、その部分は環境から直接学習できるということです。

結論:ターミナルが教師です!

驚くべき発見 2:報酬なしでの自己改善の兆し

これまでのところ、ECHO は補助的な環境損失を伴う GRPO でした。検証者は依然としてエージェントにタスクを解決したかどうかを伝え、GRPO は行動トークンでモデルを更新します。つまり、標準的な RL のセットアップに、小さな追加項があるだけです。

しかし、もし ECHO が本当に方策にターミナルの動作について何かを教えているなら、検証者の信号はまったく必要ないかもしれません。

私たちは尋ねます:検証者をオフにするとどうなるか? 学習する報酬はなく、これだけです:

つまり、モデルが行動し、観測し、自身の行動の結果としてターミナル出力を予測することによってのみ更新されます。

これはタスクパフォーマンスを向上させるべきではないように聞こえます。どの行動が良かったかを示すラベルはありません。方策が良くなるなら、それはターミナルを予測することを学ぶことが間接的に方策の行動の事前分布を再形成するからです。

そこで、試してみました!

最も強力な Qwen3-8B+ECHO チェックポイントを取り、GRPO 項を完全に削除し、環境交差エントロピー損失のみを使用して、保持されたタスクでさらに 100 ステップ訓練しました。問題は、モデルがこれまで見たことのない OOD タスクで、環境と相互作用し、返ってくるものを予測するだけで改善できるかどうかでした。

この非常識なアイデアはうまくいきましたか? まあまあうまくいきました!

Dimitris Papailiopoulos - inline image

val100(分布内)では +3.8 パーセントポイント。ITD では +5.2 パーセントポイント。PyTerm(Python 中心のターミナルタスクの保持された OOD セット)では、クリーンなツール呼び出し軌道にフィルタリングした後、+10.0 パーセントポイント。

環境のみの訓練は、ターミナル出力が有用な教師信号である場合に方策を改善します。報酬信号がないため、モデルは自身の行動によって引き起こされた出力を予測することのみを訓練し、そのため利得はそれらの出力が有用なダイナミクスを露出するかどうかに依存します。

訓練混合に近い val100 では、利得は現実的だが小さい:飽和前に +3.8 パーセントポイント。方策は ECHO 訓練中にすでにほとんどの局所的なダイナミクスを学習しています。

ITD では、より弱い開始方策がノイズの多い軌道(無効なコマンド、パースエラー、デッドエンドループ)を生成します。クリーンなロールアウトにフィルタリングすることで信号がノイズ除去され、+5.2 パーセントポイントが得られます。

ただし、クリーンな軌道だけでは十分ではありません。同じフィルタリングは TBLite では一貫して改善せず、PyTerm は同様の合格率から始まりましたが、同じレシピで改善しました。これは、ボトルネックが単に方策の強さではないことを示唆しています。重要な違いは、観測がどれだけ情報量が多いかです。Python タスクは密な行動連動フィードバック(コード→トレースバック→修正)を与えますが、より広範なターミナルタスクは、ファイル、設定、マルチステップのセットアップを通じて状態をより間接的に明らかにします。

私たちは、検証者なしの適応が可能であると信じています。RL がまともな探索モデルを生成したら、エージェントは結果だけから改善を続けることができますが、それはロールアウトがクリーンで、ターミナルのフィードバックが情報量が多い場合に限ります。それが驚くべき部分です。エージェントが完全に自己改善することではなく、行動し、返ってくるものを予測することだけで、まったく改善することです。

これが私たちをどこに残すか

ECHO の核となる教訓は単純です。エージェントのロールアウトには、最終的な報酬以上の教師信号が含まれており、それを活用すべきです。

エージェントが実行するすべてのコマンドはターミナル応答(stdout、エラー、トレース、ファイル、ログなど)を生成し、標準的な RL はそれらのトークンを次のアクションのためのコンテキストとしてのみ使用します。ECHO はそれらを訓練ターゲットに変えます。教師モデル、追加のロールアウト、または別の世界モデルは必要ありません。トランスクリプトにすでにある環境トークンを捨てるのをやめるだけです。

その小さな変更が、3 つの驚くべき結果をもたらしました。より強力な RL パフォーマンス、エキスパート SFT への依存の大幅な減少、そして一部の設定では、環境との相互作用のみによる検証者なしの自己改善です。報酬やデモンストレーションが時代遅れになったとは思いません。エキスパートの軌道は依然として戦略を教え、検証者は最もクリーンなタスクレベルの信号を提供します。しかし、ECHO は、「エキスパートを模倣する」と「まばらな報酬を待つ」の間に、密度が高く、利用が不十分な教師信号のソースがあることを示唆しています。それは、エージェント自身の行動の結果です。

より広いアイデアは、RL において長い歴史を持つ補助予測の継続であり、最近の研究は LLM エージェントのための世界モデリング目的関数を復活させています。例えば、Agent Learning via Early Experience は行動結果信号を RL 前の段階として使用し、VAGEN は VLM エージェントに世界モデリング報酬を追加し、RWML は次の状態予測で事前学習し、CWM は観測行動軌道上でコードモデルを中間訓練します。ECHO は、同じアイデアのオンライン版、RL ループ内版、CLI 風味版です。

このアイデアはどこまで行くのでしょうか?

次のステップは、この環境信号をより強力にし、その一般化の程度をテストすることです。ECHO は生のターミナル出力を使用します。なぜなら、それらはすでにロールアウトに含まれているからです。しかし、最良の学習ターゲットは、よりクリーンでコンパクトな表現(状態の要約やタスク関連ビュー)かもしれません。また、どの観測で学習すべきか? いつ軌道をフィルタリングすべきか? 環境予測と方策最適化のバランスはどう取るべきか? 同じアイデアがターミナル以外でも機能するか? ブラウザエージェント、マルチツールシステム、長期的なコーディングエージェント、またはフォローアップ、修正、好みが別の形の相互作用フィードバックであるユーザー向けアシスタントなど。

私たちの賭けは、エージェントが行動し、世界がトークンで応答するあらゆる場所で、それらの応答トークン(またはそれらのより良い表現)は学習信号の一部であるべきだということです。ECHO は、私たちが考えられるそのアイデアの最も単純なバージョンであり、2026 年末までには何らかの形の環境トークン予測がエージェント RL トレーナーで標準になるだろうと予想しています。

詳細は、完全な論文と、SkyRL 上に構築したコードをご覧ください。

ECHO を試して、エージェントの訓練がどれだけ速くなったか教えてください。

脚注:自分のラップトップで迷路の世界モデルを訓練する…まあまあ

私が「馬鹿げた迷路実験に貢献した」と言ったのを覚えていますか? それが馬鹿げた迷路実験です。

セットアップは、ECHO のごく小さなバージョンでした。小さなターミナルの中のグリッド迷路です。エージェント(ループ内の 10M パラメータのトランスフォーマー)は方向(上、下、左、右)を発行し、ターミナルは「隣接セル」に関してエージェントがどこにいるか(基本的には 2D グリッド問題での経路探索)と目的地までの距離を返します。したがって、ロールアウトは(小さい値の範囲で正確には)CLI エージェントのロールアウトとまったく同じように見えますが、はるかに単純です 😊:行動→環境応答→行動→環境応答など。

スクラッチからの 10M パラメータのトランスフォーマーで、2 つの条件をテストしました。1)行動トークンのみで訓練、2)行動トークンとターミナルの応答(隣接セル、距離など)で訓練。すべて新しく生成された 6×6 / 7×7 / 8×8 の迷路で訓練しました。

Dimitris Papailiopoulos - inline image

この迷路のやつは Nature 論文ですか? いいえ。しかし、私が言い続けてきた点があり、それは一般化し続けています。

ほとんどすべてのクリーンなアイデアにはミクロコスモスがあります。ラップトップで一晩で実行できる縮小版で、アイデアをスケールアップする価値があるかどうかを教えてくれます。

迷路は ECHO が機能することを証明しませんでした。しかし、アイデアを忘れる代わりに Vaish に Teams メッセージを送るのに十分な確信を与えました。Vaish が独立して同じアイデアを検討していたことが判明し、彼女の最初のクラスター実行が結果を返してきたとき、私は興奮し、心から驚きました。ECHO の迷路は方向性が正しいことを示唆していましたが、TerminalBench のスコアが倍増したり、エキスパート SFT の大部分を取り戻したり、報酬なしでの自己改善を予測することはできませんでした。それらは Vaish の結果でした。「6×6 の迷路を何とか解く」ことと「TerminalBench でスコアが倍増する」ことは、非常に異なる認識状態です。

しかし、この追記のポイントは、ラップトップがクラスター実験に取って代わるということではありません。重要なのは、私のアイデアのほとんどが間違っているということ、そしてラップトップを使った実験(Claude Code と Codex の助けを借りて)が、誰かの時間を無駄にする前にどのアイデアを捨てるべきかを教えてくれるということです。たまに、アイデアが生き残ることがあります。そして、それが生き残った場合、協力者の時間や GPU を使う権利を得られるかもしれません。

ECHO はそのうちの一つです。

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind
クリエイターのために

あなたの Markdown をきれいな 𝕏 記事に

自分の長文を投稿するとき、画像・表・コードブロックを 𝕏 向けに整形するのは手間がかかります。YouMind は Markdown 全体を、そのまま投稿できるきれいな 𝕏 記事に変換します。

Markdown → 𝕏 を試す

解読すべきパターンをもっと

最近のバイラル記事

バイラル記事をもっと見る