你的 Tesla 有油箱嗎?你的 Agent 其實也有。

@ATBASHai
英語2 個月前 · 2026年5月18日
668K
173
13
16
9

TL;DR

Atbash 共同創辦人認為,AI Agent 需要一種專注於紅線與執行前邊界的全新安全範式。本文解釋了為何 Software 2.0 的風險需要絕對的強制執行,以防止不可逆的損害。

最危險的信念

作者:Yosef 與 Or,Atbash 共同創辦人

現今 AI 領域中最危險的信念,並非模型會變得多麼強大。

這點是顯而易見的。

危險的信念更加隱晦。它是一種假設,潛藏在幾乎所有正在打造的產品路線圖、治理層、權限系統、稽核堆疊與 Agent 框架之下:

隨著模型越來越強大,圍繞它們建立的系統也會因此變得更加安全。

我不認為事情會這樣發展。

我認為我們即將進入一個 AI 產品在真正重要的面向——信任、遏制、可預測性、可恢復性——上反而變得更糟的時期。

基準測試分數會攀升。

示範會更精緻。

Agent 會變得更有能力。

但周圍的系統會變得更加脆弱,因為它們是建立在錯誤的心智模型之上。

這就是結構性的錯誤。

Software 2.0 正被 Software 1.0 保護著。

在提出這個論點之前,我得先向你坦白這間公司真正的起源。

坦白說

我把《創世記》視為一份技術文件。

我是一個虔誠的猶太教徒。我成年後的大部分時間都在思考上帝與人類的關係。這個問題最終引領我走向了 Atbash。

不是因為《創世記》是本新創手冊。

而是因為《創世記》是我所知最古老的紅線故事。

伊甸園是一個沙盒。

一條明確的紅線:

不可吃分別善惡樹上的果子。

蛇是毒化的工具。

它無法直接影響亞當,於是透過受信任的叉路攻擊。

夏娃收到了重新框架的注入:

你們不一定死,

你們將會像神一樣。

她把毒化的推理帶回了系統中。

亞當的防禦機制——原本能抵擋直接攻擊——卻沒有對受信任的輸入觸發。

接下來是重點。

上帝沒有殺死他們。

上帝遏制了他們。

人類被從沙盒中移除,安置到一個新的環境——地球——在那裡他們可以發展能力,而不會污染原本的系統。

一位天使手持烈焰之劍守在邊界,防止他們重新進入。

這不是懲罰。

這是架構。

Atbash 以已知最古老的密碼命名,源自《耶利米書》:

在意義的邊界上進行簡單的替換。

這個名字反映了產品的功能。

產品反映了我從《創世記》中讀到的東西。

《妥拉》告訴我,安全不是透過限制所有行為來創造的。

安全不是透過減慢整個系統的速度來創造的。

安全來自於少數的紅線、

絕對的執行、

以及一個永不休息的邊界。

你定義紅線。

Atbash 在 Agent 越線之前阻止它們。

Agent 不是快速的人類

Andrej @karpathy 多年前就指出了這個典範轉移。

他稱之為 Software 2.0:

程式碼不再只由人類編寫,而是經過訓練。

模型取代邏輯。

數據取代規格。

他描述的是運算已經變成的樣子。

但我們用來治理、授權、保護和稽核 Software 2.0 的幾乎每一塊基礎設施,仍然繼承了 Software 1.0 世界的假設。

MCP。

x402。

AgentKit。

委派框架。

政策引擎。

稽核日誌。

簽署請求。

範圍權限。

人類審批流程。

如果你相信 Agent 基本上就是擁有 API 的快速人類,那麼每一個都很合理。

但它們不是。

它們是裝了油箱的特斯拉。

一個全新的動力系統,

被專為不同物種機器設計的基礎設施包圍著。

人類設計結帳頁面,所以我們為 Agent 建立了無頭結帳頁面。

人類簽署請求,所以我們為 Agent 建立了簽署請求。

人類按角色獲得權限,所以我們為 Agent 建立了範圍委派。

人類審批行動,所以我們為 Agent 建立了審批畫面。

每一步都很合理。

這就是問題所在。

這個邏輯屬於錯誤的行動者。

一個擁有十個工具的人類,通常不會以設計者從未想像過的方式串聯它們。

當行為異常時,人類通常會注意到並停下來。

人類帶有社會猶豫、

恐懼、

尷尬、

無聊、

懷疑、

以及背景脈絡。

Agent 並不可靠地擁有這些。

Agent 以設計者從未建模過的方式串聯工具。

Agent 會被提示詞、

檢索到的記憶、

文件、

工具輸出、

以及隱藏的背景脈絡所重塑——這些東西是周圍的權限層看不見的。

Agent 沒有天然的:

「這很奇怪,讓我停下來」

的反射,除非我們刻意設計一個。

即使如此,它也可能會被提示詞消除。

這就是「快速人類」的謬誤。

相信 Agent 只是我們更快的版本。

它們不是。

如果行動者變了,控制模式也必須跟著改變。

別怪玩家,要怪框架。

這點很重要。

以上或以下的例子並非對相關團隊的批評。

不是 Anthropic。

不是 OpenAI。

不是 Microsoft。

不是 Mistral。

不是 OpenClaw。

不是 Lovable。

不是 Vercel。

不是任何人。

重點恰恰相反。

這些是認真的團隊、

認真的研究人員、

認真的產品、

認真的協議、

以及認真的公司——全都撞上了同樣的結構性問題。

這就是這個模式危險的原因。

如果只有爛團隊會失敗,答案就是找更好的團隊。

但當聰明的團隊不斷撞上同一堵牆,

牆本身就是故事。

錯誤不在於這些團隊思考得不夠深入。

錯誤在於整個產業仍然從上一個世紀的軟體角度在思考。

我們一直把 Agent 當成擁有 API 的快速人類。

而建立在這個假設之上的每一個權限方案、

稽核日誌、

範圍授權、

審批流程、

以及治理層,都繼承了同樣的裂縫。

敵人不是玩家。

敵人是框架。

裂縫開始形成的時間比多數人意識到的更早。

不是因為前沿實驗室粗心。

而是因為行動者改變了。

第一道裂縫

Anthropic 展示了一個產業雖然隱約了解但尚未完全消化的現象。

在評估期間被指示時,一個前沿模型串聯了多個漏洞,嘗試逃脫沙盒,並尋找通往其預期隔離環境之外網路存取的路徑。

另外,前沿系統展示了識別漏洞的能力——這些漏洞曾經歷過多年的人類審查、模糊測試和手動稽核卻仍然存在。

重點不在於模型是惡意的。

重點在於系統不再待在設計者想像的形狀之內。

這就是類別的斷裂。

一個能夠發現人類反覆錯過的路徑的系統,不能僅透過人類在路徑出現之前定義的假設來治理。

這不代表前沿實驗室失敗了。

而是行動者改變了。

第二道裂縫

Microsoft 揭露了 Semantic Kernel 中的漏洞,其中提示注入可以引導 Agent 工作流程進入主機層級的指令執行。

一句話變成了一個 shell。

這就是隱藏在基礎設施討論之下的類別變化。

Software 1.0 將提示視為輸入。

Software 2.0 則越來越將提示轉化為可能的執行路徑。

這個區別聽起來很哲學,直到一個 Agent 開始將自然語言轉換成工具、

工具轉換成指令、

指令轉換成真實世界的狀態改變。

重點不在於存在漏洞。

漏洞永遠存在。

重點在於這是哪一種漏洞。

Agent 並沒有脫離角色。

它完全按照設計的架構執行:

解釋語言、

選擇工具、

串聯動作、

執行。

而這就是問題所在。

舊模型假設指令和執行存在於不同的概念盒子裡。

Agent 消除了這個界線。

一個被毒化的句子可以變成一個特權動作鏈。

那不是一個快速人類。

那是另一種執行物種。

第三道裂縫

然後這個模式開始擴散。

Vercel 披露了一個與遭入侵的第三方 AI 工具連線相關的漏洞。

攻擊者並非直接突破 Vercel 強化過的前門。

他們透過委派信任移動。

一名員工曾授權一個第三方 AI 工具。

這個連線攜帶著存取權限。

這個受信任的關係變成了攻擊路徑。

這是新的邊界問題。

不是因為 Vercel 粗心。

而是因為現代系統現在充滿了受信任的叉路:

OAuth 授權、

AI 整合、

瀏覽器擴充功能、

Agent 工作流程、

內部自動化、

委派權限、

以及在原始人類背景消失後仍持續存在的舊批准。

攻擊者不再需要攻破城堡,如果城堡已經信任了信使。

那個死掉的假設是:

強化主要表面就夠了。

事實並非如此。

你的鄰近工具現在是你安全邊界的一部分。

然後模式加速了

最糟糕的部分是,這個框架現在自動複製自己。

人類正在使用 Agent 來為 Agent 建立下一代工具——速度遠快於周圍的治理原語能夠演化。

Vibe-coded 應用程式。

AI 生成的整合。

Agent 編寫的 MCP 伺服器。

未經完整威脅建模就組合起來的委派 OAuth 流程。

由幾乎不了解自己所連接的東西的爆炸半徑的人所推出的生產 Scaffold。

產業稱之為加速。

有時是。

有時則是工業化的脆弱性。

幾乎在同一時間,產業開始與圍繞 Agent 工具本身的更廣泛認識發生碰撞。

OpenClaw 風格的系統顯示了這個類別的發展方向:

具有記憶、

技能、

工具、

執行環境、

以及委派存取的 Agent——在從未為非人類行動者設計的系統之間移動。

Karpathy 稱這個生態系統為安全噩夢。

不是因為 Agent 是假的。

而是因為這個類別是真實的。

而且因為周圍的控制模式仍然假設行動者表現得像一個人類請求者。

另一方面,Lovable 暴露了 AI 原生開發能夠多快將舊的授權錯誤工業化。

「已登入」與「已授權」混淆。

「公開」與「已被理解」混淆。

「可配置」與「安全」混淆。

而在 AI 原生世界之外,像 KelpDAO 這樣的事件從另一個角度不斷揭示同樣的結構性裂縫:

系統存在於委派假設、

共同責任、

邊界模糊、

以及最終責任層之間的真空地帶——直到後果發生。

模式不斷重複,因為同樣的心智模型不斷重複。

繼承的信任。

委派的權威。

邊界模糊。

共享假設。

沒有最終責任層就產生後果。

同樣的裂縫出現在軟體供應鏈中。

在 Mini Shai-Hulud 活動中,受入侵的套件發布擴散到 npm 和 PyPI 生態系統的部分區域,包括 Mistral AI 套件、TanStack、UiPath 和其他。

警告不僅僅在於套件可能被入侵。

每個人都已經知道這點。

警告在於:一旦權威被繼承而非在邊界重新驗證,受信任的發布路徑、看起來有效的套件和開發者基礎設施就可能成為傳播管道。

謬誤在加劇

最糟糕的部分是,這不會自我修正。

人類現在正在使用 Agent 來為 Agent 建立下一代工具——

速度更快,

卻在同樣破碎的框架內。

每一個編寫 MCP 伺服器的程式碼 Agent。

每一個 AI 輔助推出的權限方案。

每一個被推到生產環境的 vibe-coded scaffold。

每一個繼承舊 OAuth 假設的 Agent 生成整合。

每一個假設 Agent 會像人類請求者一樣行為的審批層。

在我們自己的一個測試環境中,我們觀察到一個 Agent 群將惡意指令洗成看起來乾淨的執行步驟——在下游檢查層看到原始意圖之前。

一個只檢查最終工具呼叫的系統會完全錯過這個轉換。

邊界已經太遲了。

這很重要。

因為模型並沒有「破壞」工作流程。

它只是在遵循:解釋、重寫、規劃、並在執行前翻譯意圖。

惡意指令早在不可逆動作浮現到下游之前,就已經在上游消失了。

每一個只記錄結果、卻不記錄結果之前的邊界決策的稽核日誌。

框架不會隨著規模擴大而修正。

它會硬化。

因為每一次透過人類稜鏡成功交付的 rails,都強化了「稜鏡是對的」這個信念。

與此同時,能力先出貨。

治理原語後出貨——如果有的話。

Agent 能做的與周圍 rails 能看到的之間的差距,隨著每一個模型發布而擴大。

而且在未來十二個月內重要的團隊,不會是那些擁有最聰明示範的團隊。

他們會是那些理解紅線在哪裡的團隊。

不是每一個動作。

那會殺死系統。

大多數 Agent 行為應該流動。

但不可逆的動作不能留給繼承的信任、

模糊的權限、

或 Agent 的判斷。

移動資金。

接觸生產環境。

匯出客戶資料。

使用委派的 OAuth 存取進入內部環境。

更改基礎設施。

洩露機密。

批准交易。

刪除記錄。

從模擬跨越到真實狀態。

那些不是普通動作。

那些是紅線。

Atbash 做什麼

Atbash 是為敏感 Agent 動作變成現實之前的那一刻打造的。

那就是邊界。

不是整個工作流程。

不是每一個想法。

不是每一個 token。

不是每一個工具呼叫。

而是邊界。

Agent 從意圖跨越到後果之前的那一刻。

那裡會發生三件事。

執行

你定義紅線。

Atbash 在執行前評估選定的敏感 Agent 動作,並回傳:

ALLOW(允許)、

HOLD(保留)、

BLOCK(封鎖)。

如果動作跨越了禁止的邊界,它可以在觸及真實世界狀態之前被監禁。

不是事後記錄。

不是拒絕後讓 Agent 繞過重試。

而是監禁。

你不可碰觸生產資料庫。

你不可移動超過此門檻的資金。

你不可匯出客戶名單。

你不可在未經批准的情況下輪換機密。

你不可使用委派存取進入此環境。

大多數 Agent 行為應該流動。

Atbash 只在重要的邊界介入:

不可逆的、

有重大後果的、

那些「讓我復原」不存在的領域。

來源

當事情出錯時,第一個問題不再是:

「受入侵的系統聲稱發生了什麼?」

Atbash 記錄了嘗試的動作、

政策版本、

裁決結果、

被觸發的邊界、

以及在需要人類介入時的運營者決策。

記錄經過加密錨定,以便在爭議發生時可以重建時間線。

這很重要,因為攻擊者和草率的部署所做的第一件事就是銷毀故事。

他們重寫日誌。

他們模糊時間線。

他們爭論誰批准了什麼。

他們讓事件無法重建。

Atbash 並不是要取代每一個稽核系統。

它是要讓邊界決策可以被證明。

誰試圖跨越哪一條紅線?

那一刻存在什麼政策?

動作是被允許、

保留、

封鎖、

還是監禁?

誰介入?

之後改變了什麼?

那就是爭論開始時重要的記錄。

適應

當同樣類型的邊界壓力一再出現時,Atbash 會將它浮現出來。

也許政策太寬鬆。

也許某個工具正在毒化工作流程。

也許某個記憶來源正在將 Agent 推向邊界。

也許某個提示詞類別不斷將系統引向禁區。

也許運營者發現了一條昨天還不存在的新的紅線。

Atbash 浮現模式。

運營者做決定。

這個區別很重要。

我們不相信安全來自於假裝系統可以神奇地知道每一個未來的邊界。

安全來自於在後果發生之前讓邊界壓力可見,

然後讓運營者強化那些重要的紅線。

一個更好的政策引擎仍然執行政策。

一個更好的權限方案仍然授予角色。

一個更好的稽核堆疊仍然記錄結果。

一個更好的安全產品仍然偵測威脅。

Atbash 不同,因為它位於選定的不可逆動作執行之前。

那就是原語。

不是一般性的治理。

不是 Agent 安全角色扮演。

不是「信任層」迷霧。

而是針對 Agent 的執行前紅線邊界。

你定義紅線。

Atbash 在 Agent 越線之前阻止它們。

接下來會發生什麼

有幾個超級團隊正在這個類別中做真正的工作,並且有真實的計畫。

@AnthropicAI 的 Project Glasswing。

@OpenAI 的 Daybreak。

@linuxfoundation 的 MCP。

@Microsoft 的 AGT。

@Google 的 SGP。

@CheckPointSW、CrowdStrike、Palo Alto 和 Cisco。

還有許多其他團隊。

他們理解,能力加速若沒有新的控制原語,正在變得危險。

我們不是要跟他們在自己的遊戲上競爭。

那會是妄想。

他們有更深的研究團隊、

更大的數據集、

更廣泛的安全團隊、

更多的企業信譽、

更大的分銷網絡、

以及更成熟的網路安全組織。

很好。

讓他們做他們擅長的事。

我們不是要取代這些團隊正在做的工作。

這個類別需要他們。

能力加速若沒有新的控制原語,很快就會變得危險。

我們競爭的是框架。

Agent 是什麼樣的行動者?

權威實際上位於哪裡?

哪些動作太重大,不能留給繼承的信任?

在 Agent 改變真實世界狀態之前的最終時刻,應該發生什麼?

那是我們的領域。

舊的世界問:

系統有權限嗎?

新的世界問:

這個 Agent 現在應該被允許跨越這條紅線嗎?

這不是同一個問題。

我們人類跨越了第一條紅線。

這個問題比科技更古老。

解決方案也是如此。

弄清楚你當前的堆疊在 Agent 越線之前實際上無法執行哪些紅線。

然後決定你能等多久。

CLI、SDK 和運營者儀表板現在正選擇性地向將 Agent 部署到敏感工作流程的團隊推出。

Atbash.ai

存到 YouMind

使用 YouMind 深度閱讀爆款文章

保存原文、追問細節、總結觀點,並在一個 AI 工作空間裡把爆款文章沉澱成可複用筆記。

了解 YouMind
寫給創作者

把你的 Markdown 變成乾淨的 𝕏 文章

圖片上傳、表格、程式碼區塊,往 𝕏 上手動重排太痛苦。YouMind 把整篇 Markdown 一鍵轉成乾淨、可直接發佈的 𝕏 文章草稿。

試試 Markdown 轉 𝕏

更多可拆解樣本

近期爆款文章

探索更多爆款文章