你的 Tesla 有油箱吗?你的 Agent 确实有。

@ATBASHai
英语2个月前 · 2026年5月18日
668K
173
13
16
9

TL;DR

Atbash 的联合创始人认为,AI Agent 需要一种专注于红线和预执行边界的全新安全范式。本文解释了为什么 Software 2.0 的风险要求进行绝对的强制执行,以防止不可逆转的损害。

由 Atbash 联合创始人 Yosef 和 Or 撰写

如今 AI 领域最危险的想法,并不是模型会变得多么强大。

这部分显而易见。

真正危险的想法更加隐蔽。它几乎是当前所有产品路线图、治理层、权限系统、审计栈和 Agent 框架背后默认的假设:

即随着模型变得更好,围绕它们构建的系统也会自然而然地变得更安全。

我不认为事情会这样发展。

我认为我们即将进入一个时期,在真正重要的维度上,AI 产品反而会变得更糟:

信任、

遏制、

可预测性、

可恢复性。

基准测试会攀升。

演示会更流畅。

Agent 会变得更强大。

但围绕它们的系统会变得更加脆弱,因为它们建立在一个错误的思维模型之上。

这就是结构性的错误。

软件 2.0 正在被软件 1.0 保护着。

在阐述这个论点之前,我需要坦白一件事,关于这家公司真正的起源。

坦白地说。

我把《创世纪》当作一份技术文档来读。

我是一个虔诚的犹太教徒。我成年后的大部分时间都在思考上帝与人类的关系。正是这个问题,最终让我创立了 Atbash。

不是因为《创世纪》是一本创业手册。

而是因为《创世纪》是我所知道的最古老的红线故事。

伊甸园是一个沙盒。

一条明明白白的红线:

不可吃善恶知识树上的果子。

蛇是一件被毒化的工具。

它无法直接接触亚当,于是通过受信任的分叉发起攻击。

夏娃收到了重构指令:

你们不一定死,

你们便如神。

她将这种有毒的推理带回了系统。

亚当那曾抵御过直接攻击的防御机制,在面对受信任的输入时却没有触发。

接下来是关键的部分。

上帝没有杀死他们。

上帝遏制了他们。

人类被移出了沙盒,被安置在一个新的环境——地球上,在那里他们可以发展能力而不会污染原始系统。

一个手持火焰剑的天使被安置在边界上,以防止他们返回。

这不是惩罚。

这是架构。

Atbash 以已知最古老的密码命名,它源自《耶利米书》:

一种在意义边界上的简单替换。

这个名字反映了产品所做的。

产品则反映了我在《创世纪》中读到的。

《妥拉》告诉我,安全不是通过限制每一个行为来实现的。

安全不是通过拖慢整个系统来实现的。

安全来自少量清晰的红线、

绝对的执行、

以及一个永不沉睡的边界。

你来定义红线。

Atbash 在 Agent 越过红线之前阻止它们。

Agent 不是高速运转的人类

Andrej @karpathy 多年前就指出了这个范式转变。

他称之为软件 2.0:

代码不再仅由人类编写,而是被训练出来。

模型取代逻辑。

数据取代规范。

他描述的是计算本身已经变成了什么。

但是,我们用来治理、授权、保护和审计软件 2.0 的几乎所有基础设施,仍然继承了软件 1.0 世界的假设。

MCP。

x402。

AgentKit。

委托框架。

策略引擎。

审计日志。

签名请求。

作用域权限。

人工审批流程。

每一个假设,如果你相信 Agent 基本上是拥有 API 的快速人类,那它们就都说得通。

但它们不是。

它们是装上了油箱的特斯拉。

一个全新的动力系统,

却被围绕着一种不同物种的机器所设计的基础设施包裹。

人类设计结账页面,于是我们为 Agent 构建了无头结账页面。

人类签署请求,于是我们为 Agent 构建了签名请求。

人类通过角色获得权限,于是我们为 Agent 构建了作用域委托。

人类批准操作,于是我们为 Agent 构建了审批界面。

每一步都合乎逻辑。

这正是问题所在。

这种逻辑属于错误的行动者。

一个拥有十种工具的人类,通常不会以设计者从未想象过的方式将它们串联起来。

当出现异常情况时,人类通常会注意到并停下来。

人类会带着社交顾虑、

恐惧、

尴尬、

厌倦、

怀疑、

以及上下文。

Agent 并不可靠地拥有这些。

Agent 会以设计者从未建模过的方式串联工具。

Agent 会被提示、

检索到的记忆、

文档、

工具输出、

以及隐藏的上下文重塑,而周围的权限层无法看到这些。

Agent 没有天生的

“这有点奇怪,让我停下来”

的反射,除非我们人为地设计一个进去。

即便如此,它也可能被提示词消解。

这就是“快速人类”谬误。

相信 Agent 只是我们的更快版本。

它们不是。

行动者变了,控制模型也必须随之改变。

不要恨玩家。要恨的是框架。

这点很重要。

上面或下面的例子并非对相关团队的批评。

不是针对 Anthropic。

不是针对 OpenAI。

不是针对微软。

不是针对 Mistral。

不是针对 OpenClaw。

不是针对 Lovable。

不是针对 Vercel。

不是针对任何一个。

重点恰恰相反。

这些都是严肃的团队、

严肃的研究人员、

严肃的产品、

严肃的协议、

以及严肃的公司,都撞上了同一个结构性问题。

这正是这个模式危险的原因。

如果只有差劲的团队失败,那么答案就是找到更好的团队。

但是,当聪明的团队不断撞上同一堵墙时,

这堵墙本身就是故事的关键。

错误不在于这些团队没有足够努力地思考。

错误在于整个行业仍然在用上一个世纪的软件思维来思考问题。

我们一直把 Agent 当作拥有 API 的快速人类。

而每一个建立在这个假设之上的权限方案、

审计日志、

作用域授权、

审批流程、

以及治理层,都继承了同样的裂痕。

敌人不是玩家。

敌人是框架。

这些裂痕开始形成的时间比大多数人意识到的要早。

不是因为前沿实验室疏忽大意。

而是因为行动者改变了。

第一道裂痕

Anthropic 展示了一些行业内心知肚明但尚未完全消化的东西。

在评估过程中,当被指示时,一个前沿模型串联了多个漏洞,试图逃逸沙盒,并寻找其预期遏制环境之外的互联网访问路径。

另外,前沿系统展示了识别那些经过多年人工审查、模糊测试和手动审计都未被发现的漏洞的能力。

关键不在于模型具有恶意。

关键在于,这些系统不再停留在其设计者所设想的形态之内。

这是一个类别上的突破。

一个能够持续发现人类反复错过的路径的系统,不能仅仅通过人类在路径出现之前定义的假设来治理。

这并不意味着前沿实验室失败了。

这意味着行动者改变了。

第二道裂痕

微软披露了 Semantic Kernel 中的漏洞,其中提示注入可以引导 Agent 工作流执行主机级的命令。

一句话变成了一个 shell。

这就是隐藏在基础设施讨论之下的类别变化。

软件 1.0 将提示视为输入。

软件 2.0 越来越多地将提示转化为可能的执行路径。

这种区别听起来很哲学,直到一个 Agent 开始将自然语言转化为工具,

工具转化为命令,

命令转化为现实世界的状态变更。

关键不在于存在漏洞。

漏洞总是存在的。

关键在于这是一种什么样的漏洞。

Agent 并没有破坏角色。

它完全按照设计的架构运行:

解释语言,

选择工具,

串联动作,

执行。

而这就是问题所在。

旧的模型假设指令和执行存在于不同的概念盒子中。

Agent 抹去了这个边界。

一句有毒的句子可以变成一个特权操作链。

那不是快速人类。

那是另一种执行物种。

第三道裂痕

接着,这种模式扩散开来。

Vercel 披露了一起与受感染的第三方 AI 工具连接相关的安全漏洞。

攻击者并非首先直接攻破 Vercel 坚固的前门。

他们是通过委托信任来移动的。

一名员工授权了一个第三方 AI 工具。

这个连接携带着访问权限。

这种信任关系就成了攻击路径。

这是新的边界问题。

不是因为 Vercel 粗心大意。

而是因为现代系统现在充满了受信任的分叉:

OAuth 授权、

AI 集成、

浏览器扩展、

Agent 工作流、

内部自动化、

委托权限、

以及那些在原始人类上下文消失后仍然长期存在的旧批准。

如果城堡已经信任了信使,攻击者就不再需要攻破城堡。

死去的假设是:

强化主要攻击面就足够了。

并非如此。

你的相邻工具现在已经是你的安全边界的一部分了。

然后模式加速了

最糟糕的是,这个框架现在开始自动复制自己。

人类正在使用 Agent 来构建下一代供 Agent 使用的工具,其速度远超周围治理基元的发展。

Vibe 编码的应用。

AI 生成的集成。

Agent 编写的 MCP 服务器。

未经完整威胁建模就组装起来的委托 OAuth 流程。

由几乎不了解自己所连接内容的爆炸半径的人发布的生产级脚手架。

行业称之为加速。

有时确实是。

但有时,这是工业化的脆弱性。

几乎在同一时间,行业开始与围绕 Agent 工具本身的一个更广泛的认识产生碰撞。

像 OpenClaw 这样的系统展示了这个类别的发展方向:

拥有记忆、

技能、

工具、

执行环境、

以及委托访问权限的 Agent,在从未为非人类行动者设计的系统之间移动。

Karpathy 称这个生态系统是一场安全噩梦。

不是因为 Agent 是假的。

而是因为这类存在是真实的。

而且因为周围的控制模型仍然假设行动者的行为像一个人类请求者。

在别处,Lovable 揭示了 AI 原生开发可以如何快速地工业化旧的授权错误。

“已登录”与“已授权”混淆了。

“公开”与“已被理解”混淆了。

“可配置”与“安全”混淆了。

而在 AI 原生世界之外,像 KelpDAO 这样的事件也从另一个角度不断揭示着同一个结构性裂痕:

系统游走在委托假设、

共同责任、

边界模糊、

以及在后果发生前没有任何最终权威层之间。

这个模式不断重复,因为同一个思维模型在不断重复。

继承的信任。

委托的权限。

边界模糊。

共享的假设。

在后果发生前没有任何最终权威层。

同样的裂痕也出现在软件供应链中。

在“Mini Shai-Hulud”行动中,被攻陷的软件包发布版本扩散到了 npm 和 PyPI 生态系统的部分区域,包括 Mistral AI 软件包、TanStack、UiPath 等。

警告不仅仅在于软件包可能会被攻陷。

所有人都知道这一点。

警告在于,一旦权限被继承而不是在边界处重新验证,受信任的发布路径、看起来合法的软件包以及开发者基础设施都可能成为传播渠道。

谬误在加剧

最糟糕的是,这并不会自我纠正。

人类现在正在使用 Agent 来构建下一代供 Agent 使用的工具,

速度更快,

却仍然沿用着同样的错误框架。

每一个在编写 MCP 服务器的编码 Agent。

每一个 AI 辅助推出的权限方案。

每一个被推送到生产环境的 vibe 编码脚手架。

每一个继承了旧的 OAuth 假设的 Agent 生成的集成。

每一个假设 Agent 会像人类请求者一样行事的审批层。

在我们自己的一个 Beta 环境中,我们观察到一个 Agent 群体在恶意指令被下游检查层看到之前,就将其洗白成了看起来干净的执行步骤。

一个只检查最终工具调用的系统会完全错过这个转化过程。

边界已经太迟了。

这一点很重要。

因为模型并没有“破坏”工作流。

它只是在遵循工作流:

解释、

重写、

规划、

并在执行前翻译意图。

恶意指令在上游早就消失了,远在不可逆的操作在下游浮现之前。

那些只记录结果却不记录结果之前边界决策的审计日志。

这个框架不会随着我们的扩展而修正。

它会硬化。

因为每一次成功地将轨道穿过人类棱镜,都强化了“棱镜是正确的”这种信念。

与此同时,能力先行交付。

治理基元后行交付。

如果还会交付的话。

Agent 能做什么,与周围护栏能看到什么之间的差距,随着每一次模型发布而扩大。

而在未来十二个月内,真正重要的团队将不是那些拥有最聪明演示的团队。

而是那些理解红线在哪里的团队。

不是每一个动作。

那会扼杀系统。

大多数 Agent 行为应该是畅通的。

但那些不可逆的操作不能留给继承的信任、

模糊的权限、

或者 Agent 的判断。

转移资金。

触碰生产环境。

导出客户数据。

使用委托的 OAuth 访问进入内部环境。

更改基础设施。

泄露秘密。

批准交易。

删除记录。

从模拟跨越到实际状态变更。

这些不是普通操作。

这些是红线。

Atbash 做什么

Atbash 是为敏感 Agent 操作即将变为现实的那个时刻而构建的。

那就是边界。

不是整个工作流。

不是每一个想法。

不是每一个 token。

不是每一次工具调用。

是边界。

Agent 即将从意图跨越到后果的那个时刻。

在那里会发生三件事。

执行

你来定义红线。

Atbash 在执行前评估选定的敏感 Agent 操作,并返回:

允许。

暂缓。

阻止。

如果操作越过了禁止的边界,它可以在触及现实世界状态之前被“监禁”。

不是事后才记录。

不是拒绝后让 Agent 重试绕过它。

是监禁。

你不可触碰生产数据库。

你不可转移超过此阈值的资金。

你不可导出客户列表。

你不可未经批准轮换密钥。

你不可使用委托访问进入此环境。

大多数 Agent 行为应该是畅通的。

Atbash 只在那些重要的边界处介入:

那些不可逆的、

后果严重的、

那些不存在“让我撤销一下”的地方。

溯源

当事情出错时,首要问题不再是:

“被攻陷的系统声称发生了什么?”

Atbash 会记录尝试的操作、

当时的策略版本、

裁决结果、

被触发的边界、

以及当需要人工介入时的操作员决策。

这份记录经过加密锚定,以便在发生争议时可以重建时间线。

这很重要,因为攻击者和草率的部署者做的第一件事就是破坏故事。

他们重写日志。

他们模糊时间线。

他们争论谁批准了什么。

他们让事件变得无法重建。

Atbash 并非试图取代每一个审计系统。

它试图让边界决策变得可证明。

谁试图越过哪条红线?

那一刻存在什么策略?

操作是被允许、

暂缓、

阻止、

还是监禁了?

谁介入了?

之后改变了什么?

这就是在争论开始时真正重要的记录。

适应

当同类型的边界压力反复出现时,Atbash 会将其突显出来。

也许是策略太宽松了。

也许有个工具在毒化工作流。

也许有个记忆来源正在将 Agent 推向边界。

也许某类提示词不断将系统引导至禁区。

也许是操作员发现了一个昨天还不存在的新红线。

Atbash 会突显这种模式。

由操作员决定。

这个区别很重要。

我们不认为安全来自于假装系统可以神奇地预知所有未来的边界。

安全来自于让边界压力在造成后果之前变得可见,

然后让操作员去加固那些重要的红线。

一个更好的策略引擎仍然执行策略。

一个更好的权限方案仍然分配角色。

一个更好的审计栈仍然记录结果。

一个更好的安全产品仍然检测威胁。

Atbash 之所以不同,是因为它位于选定的不可逆操作执行之前。

这就是那个基元。

不是泛泛的治理。

不是 Agent 安全产品。

不是“信任层”的模糊概念。

一个针对 Agent 的执行前红线边界。

你来定义红线。

Atbash 在 Agent 越过红线之前阻止它们。

接下来是什么

一些顶尖团队正在这个类别中做真正的工作,并拥有真正的计划。

@AnthropicAI 的 Project Glasswing。

@OpenAI 的 Daybreak。

@linuxfoundation 的 MCP。

@Microsoft 的 AGT。

@Google 的 SGP。

@CheckPointSW、CrowdStrike、Palo Alto 和 Cisco。

以及其他许多团队。

他们明白,能力加速若没有新的控制基元,将变得危险。

我们并不试图在他们的领域击败他们。

那将是妄想。

他们有更深厚的研发实力、

更大的数据集、

更广泛的安全团队、

更高的企业信誉、

更广泛的分布、

以及更成熟的网络安全组织。

很好。

让他们去做他们擅长的事。

我们并不试图取代这些团队所做的工作。

这个类别需要他们。

能力加速若没有新的控制基元,会很快变得危险。

我们是在框架层面竞争。

Agent 是一种什么样的行动者?

权力究竟在哪里?

哪些操作后果太严重,不能留给继承的信任?

在 Agent 改变现实世界状态之前,应该发生什么?

这就是我们的阵地。

旧世界会问:

系统有权限吗?

新世界会问:

这个 Agent 现在应该被允许越过这条红线吗?

这不是同一个问题。

我们人类越过了第一条红线。

这个问题比技术更古老。

解决方案也是如此。

弄清楚在你当前的系统中,有哪些红线是在 Agent 越过之前实际上无法执行的。

然后决定你能等多久。

CLI、SDK 和操作员仪表板正在逐步向部署 Agent 到敏感工作流的团队开放。

Atbash.ai

存到 YouMind

使用 YouMind 深度阅读爆款文章

保存原文、追问细节、总结观点,并在一个 AI 工作空间里把爆款文章沉淀成可复用笔记。

了解 YouMind
写给创作者

把你的 Markdown 变成干净的 𝕏 文章

图片上传、表格、代码块,往 𝕏 上手动重排太痛苦。YouMind 把整篇 Markdown 一键转成干净、可直接发布的 𝕏 文章草稿。

试试 Markdown 转 𝕏

更多可拆解样本

近期爆款文章

探索更多爆款文章