テスラにガソリンタンクはありますか？実は、あなたの AI エージェントにはあるのです。

By Yosef and Or, co-founders of Atbash

現在の AI に関する最も危険な信念は、モデルが強力になることではありません。

その部分は明白です。

危険な信念はもっと静かなものです。それは、今まさに構築されているほぼすべてのプロダクトロードマップ、ガバナンスレイヤー、パーミッションシステム、監査スタック、エージェントフレームワークの下に潜む前提です。

「モデルが良くなれば、その周りのシステムも結果的に安全になる」という前提です。

私はそうは思いません。

むしろ、これからは AI プロダクトが本当に重要な側面において悪化する時期に入ると思います。

信頼、

封じ込め、

予測可能性、

回復可能性。

ベンチマークは上がるでしょう。

デモはより洗練されるでしょう。

エージェントはより有能になるでしょう。

そして、周囲のシステムはより脆弱になるでしょう。なぜなら、それらは間違ったメンタルモデルから構築されたからです。

それが構造的な誤りです。

Software 2.0 が Software 1.0 によって守られているのです。

その議論をする前に、この会社が実際にどこから来たのかについて告白しなければなりません。

告白

私は創世記を技術文書として読んでいます。

私はユダヤ教の信者です。成人してからのほとんどの時間を、神と人間との関係について考えて過ごしてきました。その疑問が、最終的に私を Atbash へと導きました。

創世記がスタートアップのマニュアルだからではありません。

創世記は、私が知る中で最も古いレッドラインの物語だからです。

エデンの園はサンドボックスでした。

ひとつの明確なレッドライン：

善悪の知識の木から食べてはならない。

蛇は毒された道具でした。

直接アダムに届かなかったので、信頼されたフォークを通じて攻撃しました。

イブはリフレーム注入を受けました：

「あなたは決して死なない、

あなたは神のようになる」。

彼女は毒された推論をシステムに持ち帰りました。

直接の攻撃には耐えたアダムの防御は、信頼された入力には反応しませんでした。

そして重要な部分が来ます。

神は彼らを殺しませんでした。

神は彼らを封じ込めました。

人間はサンドボックスから取り除かれ、新しい環境である地球に置かれました。そこで能力を開発しつつ、元のシステムを汚染しないようにしました。

天使と燃える剣が境界に置かれ、再侵入を防ぎました。

罰ではありません。

アーキテクチャです。

Atbash という名前は、エレミヤ書に登場する最も古い暗号に由来します。

意味の境界における単純な置換です。

この名前は、プロダクトが何をするかを反映しています。

プロダクトは、私が創世記で読んだことを反映しています。

トーラーは私に示しました。安全はすべての行動を制限することによって生まれるのではないと。

安全はシステム全体を遅くすることによって生まれるのでもない。

安全は、少数のレッドライン、

絶対的な執行、

そして決して眠らない境界から生まれます。

あなたがレッドラインを定義します。

Atbash は、エージェントがそれらを越える前に止めます。

エージェントは高速な人間ではない

Andrej @karpathy は何年も前にパラダイムシフトに名前をつけました。

彼はそれを Software 2.0 と呼びました：

コードはもはや人間だけが書くのではなく、訓練される。

モデルがロジックを置き換える。

データが仕様を置き換える。

彼はコンピューテーションが何になったかを説明していました。

しかし、Software 2.0 を統治、許可、保護、監査するために構築したインフラのほぼすべてが、まだ Software 1.0 の世界の前提を引き継いでいます。

MCP。

x402。

AgentKit。

委任フレームワーク。

ポリシーエンジン。

監査ログ。

署名付きリクエスト。

スコープ付きパーミッション。

人間の承認フロー。

それらのどれもが、エージェントを基本的に API を持つ高速な人間だと信じるなら意味を持ちます。

しかし、そうではありません。

彼らはガソリンタンクをボルトで取り付けたテスラのようなものです。

まったく新しい動力システムが、

異なる種の機械向けに設計されたインフラに囲まれています。

人間がチェックアウトページを設計するので、エージェント向けにヘッドレスチェックアウトページを構築しました。

人間がリクエストに署名するので、エージェント向けに署名付きリクエストを構築しました。

人間がロールによって権限を得るので、エージェント向けにスコープ付き委任を構築しました。

人間がアクションを承認するので、エージェント向けに承認画面を構築しました。

それぞれの動きは論理的です。

それが問題です。

そのロジックは間違った主体に属しています。

人間は、10 個のツールを与えられても、通常、設計者が想像もしなかった方法でそれらを連鎖させません。

何かが奇妙に振る舞うとき、人間はしばしば気づいて止まります。

人間は社会的ためらい、

恐怖、

恥ずかしさ、

退屈、

疑念、

そして文脈を持っています。

エージェントはそれらのどれも確実には持ちません。

エージェントは、設計者がモデル化しなかった方法でツールを連鎖させます。

エージェントは、周囲のパーミッションレイヤーが見ることのできないプロンプト、

取得されたメモリ、

ドキュメント、

ツール出力、

隠れた文脈によって再形成されます。

エージェントには自然な

「おかしい、止めよう」

という反射がありません。私たちがそれをエンジニアリングしない限り。

そしてそれでも、プロンプトで取り除くことができます。

これが高速人間の誤謬です。

エージェントは私たちの高速バージョンに過ぎないという信念。

しかし、そうではありません。

そして、主体が変わったのなら、制御モデルもそれに伴って変わらなければなりません。

プレイヤーを憎むな。フレームを憎め。

これは重要です。

上記または以下の例は、関係するチームへの批判ではありません。

Anthropic でもない。

OpenAI でもない。

Microsoft でもない。

Mistral でもない。

OpenClaw でもない。

Lovable でもない。

Vercel でもない。

誰でもありません。

ポイントはその逆です。

これらは真剣なチーム、

真剣な研究者、

真剣なプロダクト、

真剣なプロトコル、

真剣な企業であり、同じ構造的問題に直面しています。

それがパターンを危険なものにしているのです。

悪いチームだけが失敗するなら、答えはより良いチームです。

しかし、賢いチームが同じ壁に繰り返しぶつかり続けるなら、

その壁こそが物語です。

誤りは、これらのチームが十分に考えなかったことではありません。

誤りは、業界がまだソフトウェアの間違った世紀から考えていることです。

私たちはエージェントを API を持つ高速な人間として扱い続けています。

そして、その前提に基づいて構築されたすべてのパーミッションスキーム、

監査ログ、

スコープ付き許可、

承認フロー、

ガバナンスレイヤーは、同じひび割れを受け継ぎます。

敵はプレイヤーではありません。

敵はフレームです。

ひび割れは、ほとんどの人が気づくよりずっと早く形成され始めていました。

フロンティアラボが不注意だったからではありません。

主体が変わったからです。

最初のひび割れ

Anthropic は、業界が静かに理解していたがまだ完全には吸収していなかった何かを実証しました。

評価中に指示されたとき、フロンティアモデルは複数の脆弱性を連鎖させ、サンドボックスエスケープを試み、意図された封じ込め環境の外側へのインターネットアクセスへの経路を模索しました。

別途、フロンティアシステムは、何年もの人間によるレビュー、ファジング、手動監査を生き延びてきた脆弱性を特定する能力を示しました。

重要な部分は、モデルが悪意があったということではありません。

重要な部分は、システムがもはや設計者が想像した形状の中に留まらなかったことです。

それがカテゴリのブレークです。

人間が繰り返し見逃した経路を発見できるシステムは、その経路が現れる前に人間が定義した前提だけで統治することはできません。

それはフロンティアラボが失敗したことを意味しません。

主体が変わったことを意味します。

2 つ目のひび割れ

Microsoft は Semantic Kernel の脆弱性を開示しました。そこではプロンプトインジェクションによってエージェントワークフローがホストレベルのコマンド実行に誘導される可能性がありました。

文章がシェルになりました。

それが、インフラの議論の下に隠れているカテゴリの変化です。

Software 1.0 はプロンプトを入力として扱いました。

Software 2.0 はますますプロンプトを実行可能な経路に変えつつあります。

その区別は、エージェントが自然言語をツールに、

ツールをコマンドに、

コマンドを現実世界の状態変化に変換し始めるまでは哲学的に聞こえます。

重要な部分は、脆弱性が存在したことではありません。

脆弱性は常に存在します。

重要な部分は、それがどのような種類の脆弱性だったかです。

エージェントはキャラクターを壊しませんでした。

アーキテクチャが設計されたとおりに正確に従いました：

言語を解釈し、

ツールを選択し、

アクションを連鎖させ、

実行する。

そしてそれが問題です。

古いモデルは、命令と実行が別々の概念ボックスに存在すると仮定していました。

エージェントはその境界を消去します。

毒された文章が特権的なアクションチェーンになる可能性があります。

それは高速な人間ではありません。

それは異なる実行種です。

3 つ目のひび割れ

そしてパターンは広がりました。

Vercel は、侵害されたサードパーティ製 AI ツール接続に関連した侵害を開示しました。

攻撃者は Vercel の堅牢な正面玄関を直接破ることから始めたのではありません。

彼らは委任された信頼を通じて移動しました。

従業員がサードパーティ製 AI ツールを承認していました。

その接続はアクセスを運びました。

信頼された関係が攻撃経路になりました。

これが新しい境界問題です。

Vercel が不注意だったからではありません。

現代のシステムは今や信頼されたフォークで満ちているからです：

OAuth 許可、

AI 統合、

ブラウザ拡張機能、

エージェントワークフロー、

内部自動化、

委任されたパーミッション、

そして元の人間の文脈が消えた後も長く生き続ける古い承認。

攻撃者はもはや城を打ち破る必要はありません。城がすでにメッセンジャーを信頼しているなら。

死んだ前提：

主要な表面を強化するだけで十分であるという前提。

それは十分ではありません。

あなたの隣接するツールは、今やあなたのセキュリティ境界の一部です。

そしてパターンは加速した

最悪の部分は、フレームが今や自動的にそれ自身を再生産することです。

人間はエージェントを使って、周囲のガバナンスプリミティブが進化できるよりも速く、エージェント向けの次世代ツールを構築しています。

Vibe コードされたアプリケーション。

AI 生成された統合。

エージェントが書いた MCP サーバー。

完全な脅威モデリングなしで組み立てられた委任 OAuth フロー。

自分が接続したものの爆発半径をほとんど理解していない人々によって出荷されるプロダクションスキャフォールド。

業界はこれを加速と呼びます。

時にはそうかもしれません。

時にはそれは産業化された脆弱性です。

ほぼ同時に、業界はエージェントツール自体に関するより広い認識と衝突し始めました。

OpenClaw スタイルのシステムは、カテゴリがどこに向かっているかを示しました：

非人間エージェント向けに設計されたことのないシステムを横断する、メモリ、スキル、ツール、実行環境、委任アクセスを持つエージェント。

Karpathy はエコシステムをセキュリティの悪夢と呼びました。

エージェントが偽物だからではありません。

カテゴリが本物だからです。

そして、周囲の制御モデルが依然として主体が人間の要求者のように振る舞うと仮定しているからです。

別の場所では、Lovable は AI ネイティブ開発がいかに迅速に古い認可ミスを産業化できるかを暴露しました。

ログイン済みが認可済みと混同されました。

「公開」が「理解された」と混同されました。

設定可能が安全と混同されました。

そして AI ネイティブの世界の完全に外側では、KelpDAO のようなインシデントが別の角度から同じ構造的なひび割れを明らかにし続けました：

委任された前提の間に生きるシステム、

共有責任、

境界の曖昧さ、

そして結果の前に最終的な権限レイヤーがない。

同じメンタルモデルが繰り返されるため、パターンは繰り返されます。

継承された信頼。

委任された権限。

境界の曖昧さ。

共有された前提。

結果の前に最終的な権限なし。

同じひび割れがソフトウェアサプライチェーンに現れました。

Mini Shai-Hulud キャンペーンでは、侵害されたパッケージリリースが npm および PyPI エコシステムの一部、Mistral AI パッケージ、TanStack、UiPath などを横断して広がりました。

警告は単にパッケージが侵害される可能性があるということではありませんでした。

誰もがそれをすでに知っています。

警告は、信頼されたリリースパス、有効に見えるパッケージ、開発者インフラが、権限が境界で再検証される代わりに継承されると、伝搬チャネルになり得るということでした。

誤謬が複合する

最悪の部分は、これが自動修正されないことです。

人間は今やエージェントを使って、エージェント向けの次世代ツールを、

より高速に、

同じ壊れたフレームの中で構築しています。

MCP サーバーを書くすべてのコーディングエージェント。

パーミッションスキームの AI 支援ロールアウト。

プロダクションにプッシュされるすべての vibe コードされたスキャフォールド。

古い OAuth の前提を継承するすべてのエージェント生成統合。

エージェントが人間の要求者のように振る舞うと仮定するすべての承認レイヤー。

私たち自身のベータ環境の一つで、エージェントスウォームが悪意のある命令をクリーンに見える実行ステップに洗浄し、下流の検査レイヤーが元の意図を見る前に処理するのを観察しました。

最終的なツール呼び出しだけを検査するシステムは、変換を完全に見逃していたでしょう。

境界はすでに遅すぎました。

それは重要でした。

なぜなら、モデルはワークフローを「壊して」いたのではなく、それに従っていたからです：

解釈し、

書き換え、

計画し、

実行の前に意図を翻訳する。

悪意のある命令は、不可逆的なアクションが下流に現れるずっと前に上流で消えました。

結果を記録するが、結果の前の境界決定を記録しないすべての監査ログ。

フレームはスケールするにつれて修正されません。

硬化します。

なぜなら、人間のプリズムを通したレールのすべての成功した出荷が、プリズムが正しかったという信念を強化するからです。

その間、能力が先に出荷されます。

ガバナンスプリミティブは後から出荷されます。

出荷されるとしても。

エージェントができることと周囲のレールが見えることとのギャップは、モデルリリースごとに広がります。

そして、次の 12 ヶ月で重要なチームは、最も巧妙なデモを持っているチームではありません。

レッドラインがどこにあるかを理解しているチームです。

すべてのアクションではありません。

それではシステムが死んでしまいます。

ほとんどのエージェントの振る舞いは流れるべきです。

しかし、不可逆的なアクションは、継承された信頼、

曖昧な権限付与、

またはエージェントの判断に委ねることはできません。

資金の移動。

プロダクションへのタッチ。

顧客データのエクスポート。

委任された OAuth アクセスを使用して内部環境に入る。

インフラの変更。

シークレットの公開。

トランザクションの承認。

レコードの削除。

シミュレーションから状態への移行。

これらは通常のアクションではありません。

これらはレッドラインです。

Atbash の機能

Atbash は、機密性の高いエージェントアクションが現実になる直前の瞬間のために構築されています。

それが境界です。

ワークフロー全体ではありません。

すべての思考ではありません。

すべてのトークンではありません。

すべてのツール呼び出しではありません。

境界です。

エージェントが意図から結果へと移行する直前の瞬間。

そこで 3 つのことが起こります。

執行

あなたがレッドラインを定義します。

Atbash は、選択された機密性の高いエージェントアクションを実行前に評価し、以下を返します：

ALLOW（許可）。

HOLD（保留）。

BLOCK（ブロック）。

アクションが禁止された境界を越える場合、現実世界の状態に達する前に隔離できます。

事後的にログに記録されるのではありません。

エージェントがその周りで再試行できるように拒否されるのでもありません。

隔離されます。

汝、プロダクションデータベースに触れてはならない。

汝、この閾値を超えて資金を移動してはならない。

汝、顧客リストをエクスポートしてはならない。

汝、承認なしにシークレットをローテーションしてはならない。

汝、委任されたアクセスを使用してこの環境に入ってはならない。

ほとんどのエージェントの振る舞いは流れるべきです。

Atbash は、重要な境界でのみ介入します：

不可逆的なもの、

重大な結果を伴うもの、

「元に戻す」が存在しない場所。

来歴

何かがうまくいかなかったとき、最初の質問はもはや：

「侵害されたシステムは何が起こったと主張しているか？」ではありません。

Atbash は、試みられたアクション、

ポリシーバージョン、

判定結果、

呼び出された境界、

そして人間が介入したときのオペレーターの決定を記録します。

記録は暗号的に固定され、タイムラインが争いの下で再構築できるようになります。

それは重要です。なぜなら、攻撃者やずさんなデプロイが最初に行うことは物語を破壊することだからです。

彼らはログを書き換えます。

タイムラインを曖昧にします。

誰が何を承認したかを争います。

インシデントを再構築不可能にします。

Atbash はすべての監査システムを置き換えようとしているのではありません。

境界決定を証明可能にしようとしているのです。

どのレッドラインを誰が越えようとしたか？

その瞬間にどのポリシーが存在したか？

アクションは許可されたか、

保留されたか、

ブロックされたか、

隔離されたか？

誰が介入したか？

その後何が変わったか？

それが、議論が始まったときに重要となる記録です。

適応

同じ種類の境界圧力が何度も現れるとき、Atbash はそれを表面化します。

ポリシーが緩すぎるかもしれません。

ツールがワークフローを毒しているかもしれません。

メモリソースがエージェントをラインに向かって押しているかもしれません。

プロンプトクラスがシステムを禁じられた領域に繰り返し導いているかもしれません。

オペレーターが昨日存在しなかった新しいレッドラインを発見したかもしれません。

Atbash はパターンを表面化します。

オペレーターが決定します。

その区別は重要です。

私たちは、システムが魔法のように将来のすべての境界を知ることができると装うことから安全が生まれるとは信じていません。

安全は、結果の前に境界圧力を可視化し、その後オペレーターが重要なレッドラインを強化できるようにすることから生まれます。

より良いポリシーエンジンは依然としてポリシーを執行します。

より良いパーミッションスキームは依然としてロールを付与します。

より良い監査スタックは依然として結果を記録します。

より良いセキュリティプロダクトは依然として脅威を検出します。

Atbash は、選択された不可逆的なアクションが実行される前に位置する点で異なります。

それがプリミティブです。

一般的なガバナンスではありません。

エージェントセキュリティのコスプレではありません。

「トラストレイヤー」の霧でもありません。

エージェント向けの実行前レッドライン境界です。

あなたがレッドラインを定義します。

Atbash はエージェントがそれらを越える前に止めます。

これから来るもの

いくつかのスーパースターチームが実際の作業を行い、このカテゴリで実際のイニシアチブを持っています。

@AnthropicAI （Project Glasswing）。

@OpenAI （Daybreak）。

@linuxfoundation （MCP）。

@Microsoft （AGT）。

@Google （SGP）。

@CheckPointSW 、CrowdStrike、Palo Alto、Cisco。

そして他の多く。

彼らは、新しい制御プリミティブなしでの能力加速が危険になりつつあることを理解しています。

私たちは彼らのゲームで彼らに勝とうとしているのではありません。

それは妄想でしょう。

彼らはより深い研究ベンチ、

より大きなデータセット、

より広範なセキュリティチーム、

より多くのエンタープライズ信頼性、

より大きな流通、

より成熟したサイバー組織を持っています。

良いことです。彼らに彼らが構築されたことをさせましょう。

私たちはこれらのチームの作業を置き換えようとしているのではありません。

カテゴリには彼らが必要です。

新しい制御プリミティブなしでの能力加速は、非常に急速に危険になります。

私たちはフレームで競争しています。

エージェントとはどのような主体か？

権限は実際にどこにあるのか？

どのアクションが継承された信頼に委ねるには結果が大きすぎるのか？

エージェントが現実世界の状態を変える直前の瞬間に何が起こるべきか？

それが私たちの領域です。

古い世界は問います：システムは許可を持っていたか？

新しい世界は問います：このエージェントは今、このレッドラインを越えることを許可されるべきか？

それらは同じ質問ではありません。

私たち人間は最初のレッドラインを越えました。

問題はテクノロジーよりも古いのです。

解決策も同様に古いのです。

現在のスタックがエージェントに越えられる前に実際に執行できないレッドラインを把握してください。

そして、どれだけ待てるかを決めてください。

CLI、SDK、およびオペレーターダッシュボードは現在、機密性の高いワークフローにエージェントをデプロイするチームに選択的に展開されています。

Atbash.ai

テスラにガソリンタンクはありますか？実は、あなたの AI エージェントにはあるのです。

告白

エージェントは高速な人間ではない

プレイヤーを憎むな。フレームを憎め。

最初のひび割れ

2 つ目のひび割れ

3 つ目のひび割れ

そしてパターンは加速した

誤謬が複合する

Atbash の機能

執行

来歴

適応

これから来るもの

Use YouMind to read viral articles deeply

最近のバイラル記事

Porting Fable 5 Behavior to Sonnet: Everything Needed Was in the Official Anthropic Docs

Complete Guide to Claude Fable 5's 'Agent Functions'

The Fable Loop Library: 25 Workflows on Autopilot

60 Claude Opus 4.8 Workflows That Make Money While You Sleep

Anthropic engineers 8x output. Here's the context engineering system behind it.

Why Can't We Meet Deadlines? The Causes and Solutions Identified by a Nobel Laureate in 1979

テスラにガソリンタンクはありますか？実は、あなたの AI エージェントにはあるのです。

告白

エージェントは高速な人間ではない

プレイヤーを憎むな。フレームを憎め。

最初のひび割れ

2 つ目のひび割れ

3 つ目のひび割れ

そしてパターンは加速した

誤謬が複合する

Atbash の機能

執行

来歴

適応

これから来るもの

Use YouMind to read viral articles deeply

あなたの Markdown をきれいな 𝕏 記事に

最近のバイラル記事

Porting Fable 5 Behavior to Sonnet: Everything Needed Was in the Official Anthropic Docs

Complete Guide to Claude Fable 5's 'Agent Functions'

The Fable Loop Library: 25 Workflows on Autopilot

60 Claude Opus 4.8 Workflows That Make Money While You Sleep

Anthropic engineers 8x output. Here's the context engineering system behind it.

Why Can't We Meet Deadlines? The Causes and Solutions Identified by a Nobel Laureate in 1979