AI Agent 学习、构建与避坑指南 (2026 年)

AI Agent 学习、构建与避坑指南 (2026 年)

@rohit4verse
英语2周前 · 2026年4月29日

AI 功能

2.5M
1.6K
242
46
6.3K

TL;DR

这是一份关于 AI Agent 开发的战略性深度指南,重点关注上下文工程 (Context Engineering) 和 MCP 等持久性原语,同时建议开发者摒弃炒作驱动的框架,转而采用稳健的评估与沙箱机制。

每天都有新框架、新基准、新的“10倍”发布。问题不再是“我该如何跟上”。而是:哪些是真正的信号,哪些是披着紧迫外衣的噪音。

每份路线图在发布一个月后就过时了。你上个季度掌握的框架现在成了遗留系统。你优化的基准被玩弄并取代了。我们被训练去遵循一条传统路径:一个带有主题和层级的堆栈,一系列工作和任期,缓慢的攀升。AI 重写了那张画布。任何拥有正确提示和正确品味的人现在都能完成过去需要两年经验工程师一个冲刺才能交付的工作。

专业知识仍然重要。没有什么能替代亲眼目睹系统崩溃、在凌晨两点调试内存泄漏、为一个无聊的选择而非聪明的选择争论并最终证明是对的。那种品味会复利。不再像过去那样复利的是:知道本周框架的 API 接口。六个月后它就会不同。两年后胜出的人是那些早期就选择了持久原语,并让其余东西从身边溜走的人。

我花了两年时间在这个领域构建,拿到了多个超过 25 万美元的 offer,现在在一家隐秘模式的公司负责技术。这就是我会发给那些问“我现在到底该关注什么”的人的内容。

这不是一份路线图。Agent 领域还没有一个目的地。大型实验室在公开迭代,向数百万用户推送有退步的版本,写事后分析,实时修补。如果 Claude Code 的团队能发布一个性能下降 47% 的版本,并且只在用户社区发现后才意识到,那么认为这下面有一张稳定地图的想法就是虚构的。每个人都在摸索。初创公司蓬勃发展,因为巨头们也不知道。非编码者正在与 Agent 配对,并在周五交付那些 ML 博士周二还认为不可能的东西。

这个时刻有趣的地方在于它对资历问题的影响。传统路径优化的是资历:学位、初级职位、高级职位、主管职位,缓慢的等级积累。当底层的领域不动时,这说得通。现在领域对每个人都在同等移动。一个 22 岁公开演示 Agent 的年轻人和一个 35 岁的高级工程师之间的区别不再是十年积累的堆栈掌握。22 岁的年轻人拥有和高级工程师一样的空白画布,对他们来说,复利的是愿意交付,加上那一小部分不会在一个季度内过时的原语。

这就是整篇文章所基于的重新框架。接下来是一种思考方式:哪些原语值得你关注,哪些发布可以放过。挑选适合你的。放下不适合的。

真正有效的过滤器

你无法跟上每周的发布。你也不应该尝试。你需要的是一个过滤器,而不是一个信息流。

过去 18 个月里,有五个测试一直有效。在让一个发布触及你的堆栈之前,先用它们过一遍。

两年后这还重要吗? 如果它只是一个前沿模型的包装器、一个 CLI 标志、或者“Devin 但针对 X”,答案几乎总是否定的。如果它是一个原语(一个协议、一个记忆模式、一个沙箱方法),答案更可能是肯定的。包装器的半衰期很短。原语的半衰期是数年。

你尊敬的人是否在上面构建了真实的东西并诚实地写了下来? 营销帖子不算。事后分析才算。一篇名为“我们在生产环境中试了 X,这是出问题的地方”的博客抵得上十个发布公告。这个领域里好的信号总是由那些为它牺牲过一个周末的人写的。

采用它是否需要你扔掉你的追踪、重试、配置、认证? 如果是,那它是一个试图成为平台的框架。试图成为平台的框架有 90% 的死亡率。好的原语能嵌入你现有的系统,而不强制迁移。

跳过它六个月要付出什么代价? 对于大多数发布,答案是零。六个月后你会知道更多。获胜的版本会更清晰。这个测试让你能毫无焦虑地跳过 90% 的发布,而大多数人拒绝运行它,因为跳过感觉像是落后。其实不是。

你能衡量它是否真的帮助了你的 Agent 吗? 如果不能,你就是在猜测。没有评估的团队靠感觉运行,并发布有退步的版本。有评估的团队可以让数据告诉他们,这周 GPT-5.5 还是 Opus 4.7 在他们特定的工作负载上胜出。

如果你从整篇文章中只采纳一个习惯,那就是这个:当有新东西发布时,写下六个月后你需要看到什么才能相信它重要。然后回来检查。大多数时候问题会自己回答,而你把注意力花在了会复利的事情上。

这些测试背后的技能比其中任何一个都更难命名。那就是愿意对你没有选择的东西保持不酷。本周在 Hacker News 上爆红的框架会有十四天的啦啦队,他们听起来都很聪明。六个月后,其中一半的框架无人维护,啦啦队也转移了。那些没有参与的人把注意力留给了那些在发布热潮过后经得起“无聊”考验的东西。那种姿态——克制、观察、说“我六个月后会知道”——才是这个领域真正的专业技能。每个人都能阅读发布。几乎没有人擅长不对它们做出反应。

该学什么

概念。模式。事物的形状。这些是能带来复利回报的想法。它们能经受住模型更换、框架更换、范式转变。深入理解它们,你就能在一个周末内掌握任何新工具。跳过它们,你将永远在重新学习表面机制。

上下文工程

过去两年最重要的重命名是“提示工程”变成了“上下文工程”。这种转变是真实的,不是表面上的。

模型不再是你为其编写巧妙指令的东西。而是你在每一步为其组装一个工作上下文的东西。那个上下文同时包含系统指令、工具模式、检索到的文档、先前的工具输出、草稿板状态和压缩的历史。Agent 的行为是你放入窗口的内容的涌现属性。

内化这一点:上下文就是状态。每一 token 无关的噪音都会降低你的推理质量。上下文腐烂是一个真实的生产故障。在一个十步任务的第八步,原始目标可能已经被工具输出埋没了。那些交付可靠 Agent 的团队会主动总结、压缩、修剪。他们对工具描述进行版本管理。他们缓存静态部分,拒绝缓存变化的部分。他们思考上下文窗口的方式,就像有经验的工程师思考 RAM 一样。

一个具体的感受方式:拿任何生产中的 Agent,开启完整追踪日志。看第一步的上下文。看第七步的上下文。数一数还有多少 token 在发挥作用。第一次这样做时,你会感到尴尬。然后你会去修复它,同样的 Agent 会明显变得更可靠,而无需改变模型或提示。

如果你要读一篇关于这个的文章,读 Anthropic 的“AI Agent 的有效上下文工程”。然后读他们的多 Agent 研究事后分析,它用数字说明了上下文隔离在规模化后有多重要。

工具设计

工具是 Agent 与你的业务相遇的地方。模型根据名称和描述选择工具。模型根据错误消息重试。模型根据工具的契约是否匹配 LLM 擅长表达的内容而成功或失败。

五到十个命名良好的工具胜过二十个平庸的。工具名称应该读起来像英语动词短语。描述应该包括何时使用该工具以及何时不使用。错误消息应该是模型可以据此行动的反馈。“超过最大 token 500,请先尝试总结”比“错误:400 错误请求”好得多。一个公共研究团队报告说,仅重写错误消息就减少了 40% 的重试循环。

Anthropic 的“为 Agent 编写工具”是合适的起点。之后,对你自己的工具进行检测,查看实际的调用模式。Agent 可靠性最大的提升几乎总是在工具端。人们不断调整提示,却忽略了实际杠杆所在的地方。

编排器-子 Agent 模式

2024 和 2025 年的多 Agent 辩论以现在每个人都交付的综合方案结束。天真的多 Agent 系统,其中多个 Agent 并行写入共享状态,会灾难性地失败,因为错误会累积。单 Agent 循环的扩展性比你预期的要好。有一种多 Agent 形状在生产中有效:一个编排器 Agent 将范围狭窄的只读任务委派给隔离的子 Agent,然后综合它们的结果。

这就是 Anthropic 研究系统的工作方式。这就是 Claude Code 的子 Agent 的工作方式。这就是 Spring AI 和大多数生产框架现在标准化的模式。子 Agent 获得小而集中的上下文。它们不能改变共享状态。编排器拥有写入权。

Cognition 的“不要构建多 Agent”文章和 Anthropic 的“我们如何构建多 Agent 研究系统”看起来是对立的,但用不同的词汇说着同一件事。两者都读。

默认使用单 Agent。只有当单 Agent 遇到真正的瓶颈时才使用编排器-子 Agent:上下文窗口压力、顺序工具调用导致的延迟、或者任务异构性确实受益于集中上下文。在感受到痛苦之前就构建这个,会交付你不需要的复杂性。

评估和黄金数据集

每个交付可靠 Agent 的团队都有评估。每个没有的团队都没有。这是该领域最高杠杆的习惯,也是我在看过的每家公司中看到的最被低估的事情。

有效的方法:收集你的生产追踪,标记失败,将其视为回归集。每当出现新的失败时添加进去。对主观部分使用 LLM 作为评判者,其余部分使用精确匹配或程序化检查。在任何提示、模型或工具更改之前运行该套件。Spotify 的工程博客报告说,他们的评判层在交付前否决了大约 25% 的 Agent 输出。没有它,四分之一的坏结果就会到达用户手中。

让这个习惯坚持下去的心智模型:评估是一个单元测试,当其他一切都在变化时,它让 Agent 保持诚实。模型获得新版本。框架发布破坏性变更。供应商弃用一个端点。你的评估是唯一能告诉你 Agent 是否仍在履行职责的东西。没有它们,你就是在编写一个其正确性依赖于移动目标善意的系统。

评估框架(Braintrust、Langfuse evals、LangSmith)都很好。它们都不是瓶颈。瓶颈是首先拥有一个标记集。在第一天就构建它,在扩展任何东西之前。前五十个例子可以在一个下午手工标记。没有借口。

文件系统即状态和思考-行动-观察循环

对于任何做真正多步工作的 Agent,持久的架构是:思考、行动、观察、重复。文件系统或结构化存储作为真相来源。每个动作都被记录并可重放。Claude Code、Cursor、Devin、Aider、OpenHands、goose。它们都出于这个原因汇聚于此。

模型是无状态的。框架必须是有状态的。文件系统是每个开发者都已经理解的有状态原语。一旦你接受这个框架,整个框架纪律(检查点、可恢复性、子 Agent 验证、沙箱执行)就会从认真对待这个模式中自然产生。

这教给你的更深层的东西:在任何值得其计算账单的生产 Agent 中,框架比模型做的工作更多。模型选择下一个动作。框架验证它,在沙箱中运行它,捕获输出,决定反馈什么,决定何时停止,决定何时检查点,决定何时生成子 Agent。将模型换成另一个质量相似的,一个好的框架仍然能交付。将框架换成一个更差的,世界上最好的模型仍然会产生一个随机忘记自己在做什么的 Agent。

如果你在构建任何比单次工具调用更复杂的东西,框架才是你应该花时间的地方。模型只是其中的一个组件。

MCP,概念上

不要只学习如何调用 MCP 服务器。学习这个模型。Agent 能力、工具和资源之间的清晰分离,下面有可扩展的认证和传输层。一旦你理解了它,你看到的每一个其他“Agent 集成框架”都会看起来像 MCP 的劣化版本,你会节省评估每个框架的时间。

Linux 基金会现在管理它。每个主要模型提供商都支持它。“AI 的 USB-C”这个比较现在比讽刺更准确。

沙箱作为原语

每个生产编码 Agent 都在沙箱中运行。每个浏览器 Agent 都曾受到间接提示注入的影响。每个多租户 Agent 都曾在某个时候出现过权限范围错误。将沙箱视为原始基础设施,而不是客户要求时才添加的功能。

学习基础知识。进程隔离。网络出口控制。密钥范围。Agent 和工具之间的认证边界。那些在客户安全审查后才临时添加的团队是失去交易的团队。那些从第一周就构建进去的团队可以轻松通过企业采购。

该用什么构建

具体选择,2026 年 4 月。这些会变化,但很慢。在这里选择无聊的。

编排

LangGraph 是生产默认。大约三分之一运行 Agent 的大公司使用它。其抽象匹配 Agent 系统的真实形状:类型化状态、条件边、持久工作流、人在回路中的检查点。缺点是冗长。优点是这种冗长匹配了 Agent 进入生产后你实际需要控制的东西。

如果你使用 TypeScript,Mastra 是事实上的选择。那个生态系统中最清晰的心智模型。

如果你的团队喜欢 Pydantic 并希望类型安全作为一等公民,Pydantic AI 是一个合理的绿地选择。它在 2025 年底达到 v1.0,势头是真实的。

对于提供商原生的工作(计算机使用、语音、实时),在你的 LangGraph 节点内部使用 Claude Agent SDK 或 OpenAI Agents SDK。不要试图让其中任何一个成为异构系统的顶层编排器。它们针对自己的车道进行了优化。

协议层

MCP,句号。将你的工具集成构建为 MCP 服务器。以同样的方式消费外部集成。注册表已经过了那个点,你几乎总是能在需要构建之前找到一个服务器。在 2026 年编写自定义工具管道是在为无意义的事情付出代价。

记忆

根据自主级别选择,而不是根据炒作。

Mem0 用于聊天风格个性化。用户偏好,轻量历史。Zep 用于生产对话系统,其中状态演变并且你需要实体追踪。Letta 用于 Agent 在数天或数周的工作中保持连贯性。大多数团队不需要这个。需要的团队,正好需要这个。

错误是在你有记忆问题之前就使用记忆框架。从你的上下文窗口能容纳的内容加上一个向量存储开始。只有当你能够清晰表达它解决的故障模式时,才添加记忆系统。

可观测性和评估

Langfuse 是 OSS 默认。可自托管,MIT 许可,涵盖追踪、提示版本管理和基本的 LLM 作为评判者评估。如果你已经是 LangChain 商店,LangSmith 集成更紧密。Braintrust 是研究风格评估工作流的正确选择,带有严格比较。如果你需要在多语言栈中使用供应商中立的 OpenTelemetry 检测,OpenLLMetry / Traceloop 是答案。

你需要追踪和评估两者。追踪回答“Agent 实际做了什么?”评估回答“Agent 比昨天更好还是更差?”不要在没有两者的情况下交付。盲目运行的成本是第一天正确连接它的成本的十倍。

运行时和沙箱

E2B 用于通用沙箱代码执行。Browserbase(与 Stagehand 配对)用于浏览器自动化。Anthropic Computer Use 用于需要真实操作系统级桌面控制时。Modal 用于短时爆发。永远不要运行无沙箱的代码执行。一个被提示注入的 Agent 在你的生产环境中的爆炸半径是一个你不想讲的故事。

模型

基准追逐令人疲惫且基本无益。实际上,在 2026 年 4 月:

Claude Opus 4.7 和 Sonnet 4.6 用于可靠的工具使用、多步连贯性和优雅的失败恢复。Sonnet 是大多数工作负载的成本性能最佳点。GPT-5.4 和 5.5 用于需要最强 CLI/终端推理或你生活在 OpenAI 基础设施中时。Gemini 2.5 和 3 用于长上下文或重多模态任务。DeepSeek-V3.2 或 Qwen 3.6 用于成本比顶级性能更重要时,特别是对于狭窄定义明确的任务。

将模型视为可互换的。如果你的 Agent 只与一个模型一起工作,那是一个气味,而不是护城河。使用评估来决定部署什么。每季度重新评估,而不是每周。

该跳过什么

你会被告知要学习和构建所有这些。你不需要。跳过的成本很低。节省的时间很多。

AutoGen 和 AG2 用于生产。 微软的框架转为社区维护,发布停滞,抽象不匹配生产团队实际需要。适合学术探索。不要将产品建立在它之上。

CrewAI 用于新的生产构建。 它无处不在,因为它易于演示。构建真实系统的工程师已经离开了它。如果你愿意,可以用它做原型。不要承诺使用它。

Microsoft Semantic Kernel 除非你被锁定在微软企业栈中,并且你的买家关心这一点。这不是生态系统发展的方向。

DSPy 除非你专门在规模上优化提示程序。哲学价值,小众受众。不是通用的 Agent 框架。不要把它当作一个。

独立的代码编写 Agent 作为你的架构选择。 代码即行动是有趣的研究。它还不是生产默认模式,你会遇到工具和安全方面的战斗,而你的竞争对手没有。

“自主 Agent”的推销。 AutoGPT 和 BabyAGI 的血统在产品形式上已经死亡。行业达成的诚实框架是“Agent 工程”:受监督、有边界、经过评估。任何在 2026 年仍在销售部署即忘的自主 Agent 的人,是在向你销售 2023 年。

Agent 应用商店和市场。 自 2023 年以来一直承诺,从未获得企业 traction。企业不购买通用的预制 Agent。他们购买与结果挂钩的垂直 Agent,或者自己构建。不要围绕应用商店的梦想构建你的业务。

作为客户的横向“构建任何 Agent”企业平台(Google Agentspace、AWS Bedrock Agents、Microsoft Copilot Studio 层级)。它们最终会有用。现在它们令人困惑、交付缓慢,而且购买与构建的数学仍然倾向于自己构建狭窄的 Agent 或购买垂直的。Salesforce Agentforce 和 ServiceNow Now Assist 是例外,因为它们嵌入在你已经使用的工作流系统中。

SWE-bench 和 OSWorld 排行榜追逐。 伯克利研究人员在 2025 年记录到,几乎每个公共基准都可以在不解决底层任务的情况下被玩弄。团队现在使用 Terminal-Bench 2.0 和自己的内部评估作为真实信号。默认对单一数字的基准飞跃持怀疑态度。

天真的并行多 Agent 架构。 五个 Agent 通过共享内存聊天在演示中看起来令人印象深刻,但在生产中崩溃。如果你不能在一张餐巾纸上画出带有读/写边界的清晰编排器-子 Agent 图,就不要交付它。

新 Agent 产品的按席位 SaaS 定价。 市场转向了基于结果和使用的定价。按席位定价会留下钱在桌上,并向买家表明你不信任自己的产品能交付结果。

本周你在 Hacker News 上看到的那个新框架。 等六个月。如果它仍然重要,那会很明显。如果不重要,你省了一次迁移。

如何真正行动

如果你试图采用 Agent,而不仅仅是跟上它们,这个序列有效。它很无聊。但它有效。

选择一个已经重要的结果。 不是登月计划。不是横向的“Agent 平台”项目。一些你的业务已经关心的可衡量的东西。减少支持工单。起草第一遍法律审查。筛选入站线索。生成月度报告。当那个结果移动时,Agent 就成功了。这成为你第一天的评估目标。

这一步比任何其他步骤都重要的原因是,它约束了每一个后续决策。有了一个具体的结果,“哪个框架”的问题就不再是哲学性的。你选择那个最快交付你的结果的框架。“哪个模型”的问题不再是基准争论。你选择你的评估说在这个特定工作上有效的那个。“我们需要记忆/子 Agent/自定义框架吗”的问题不再是思想实验。你只添加你的特定故障模式需要的东西。跳过这一步的团队最终构建了没人要求的横向平台。认真对待这一步的团队最终交付了一个单一的狭窄 Agent,在一个季度内就收回了成本,而这个单一的交付 Agent 教给他们的关于这个领域的东西比两年的阅读还多。

在交付任何东西之前设置追踪和评估。 选择 Langfuse 或 LangSmith。连接它。如果需要,手工构建一个小型黄金数据集。五十个标记示例就足够开始。你无法改进你无法衡量的东西。以后构建它的成本大约是现在构建它的 10 倍。

从单 Agent 循环开始。 选择 LangGraph 或 Pydantic AI。选择 Claude Sonnet 4.6 或 GPT-5 作为模型。给 Agent 三到七个设计良好的工具。给它文件系统或数据库作为状态。交付给一个小型受众。观察追踪。

将 Agent 视为产品,而不是项目。 它会以你无法预测的方式失败。那些失败就是你的路线图。从真实的生产追踪中构建回归集。每个提示更改、每个模型更换、每个工具更改在部署前都要经过评估。这是大多数团队投资不足的地方。这是大多数可靠性来源的地方。

只有当你赢得了它时才增加范围。 当上下文是瓶颈时,子 Agent 才会出现。当单窗口上下文无法容纳你需要的内容时,记忆框架才会出现。当底层 API 真的不存在时,计算机使用或浏览器使用才会出现。不要预先架构这些。让故障模式把它们拉进来。

选择无聊的基础设施。 MCP 用于工具。E2B 或 Browserbase 用于沙箱。Postgres 或你已经在运行的任何数据存储用于状态。你现有的认证和可观测性栈。异国的基础设施很少是胜利。纪律才是。

从第一天起关注你的单位经济学。 每次行动的成本。缓存命中率。重试循环成本。模型调用分布。Agent 在 PoC 中看起来便宜,但在 100 倍规模下会爆炸,除非你从一开始就对每次结果进行成本检测。一个每次运行 0.50 美元的 PoC 在中等规模下会变成每月 5 万美元。没有看到这一点的团队会迎来他们不喜欢的 CFO 会议。

每季度重新评估模型,而不是每周。 锁定一个季度。在季度末,针对当前前沿运行你的评估套件,如果数据表明应该切换就切换。你获得了模型改进的好处,而没有追逐每个发布的混乱。

读懂潮流

表明是信号的具体迹象:

一个受人尊敬的工程团队会发布带有数据的事后分析,而不仅仅是宣称采用率。它是原语(协议、模式、基础设施),而不是封装或捆绑包。它能与你已有的系统互操作,而不是取而代之。它的宣传描述的是它解决的失败模式,而不是它启用的能力。它存在的时间足够长,以至于有人写过一篇"什么没起作用"的博客文章。

判断什么是噪声的具体迹象:

三十天后还没有生产案例研究的演示视频。过于完美的基准测试飞跃,不像是真的。使用"自主"、"Agent OS"或"构建任意 Agent"而不加限定的宣传。那些文档假设你会抛弃现有追踪、认证和配置的框架。星标数快速上升,但提交、发布和贡献者没有同步增长。Twitter 热度高但 GitHub 活跃度低。

一个有用的每周习惯:周五留出三十分钟关注行业动态。读三样东西。Anthropic 的工程博客。Simon Willison 的笔记。Latent Space。如果有事后分析发布,快速浏览一两篇。本周其他内容一概跳过。你会知道哪些是真正重要的。

值得关注的方向

未来两个季度值得关注的事情,不是因为它们稳赢,而是因为"这是信号吗?"这个问题还没有完全解决:

Replit Agent 4 的并行分叉模型。 首次认真尝试"多个 Agent 并行工作"而不被共享状态绊倒。如果在大规模下依然成立,编排器-子 Agent 的默认模式可能会改变。

基于结果的定价成熟度。 Sierra 和 Harvey 的收入轨迹在狭窄垂直领域内验证了这一点。问题是它能否推广到其他领域,还是只停留在垂直模式。

技能作为封装层。 GitHub 上 AGENTS.md 和技能目录的激增表明,一种打包 Agent 能力的新方式正在出现。它能否像 MCP 对工具那样标准化,是悬而未决的问题。

Claude Code 2026 年 4 月的质量回退及其事后分析。 一个行业领先的 Agent 出现了 47% 的性能回退,而且是在用户发现之后内部监控才察觉。这说明了生产环境 Agent 评估实践仍然多么不成熟,即使是在领先者那里。如果这能推动行业范围的投资来改进在线评估,那么这次修正就是健康的。

语音作为默认支持界面。 Sierra 的语音渠道在 2025 年底超过了文本。如果这种模式在其他垂直领域也成立,那么设计约束(延迟、打断、实时工具使用)将成为首要问题,许多当前架构需要重新设计。

开源模型 Agent 能力缩小差距。 DeepSeek-V3.2 原生思考到工具使用。Qwen 3.6。更广泛的开源生态。窄 Agent 任务的成本性能正在变化。闭源默认并非永久。

以上每一项都有一个明确的"六个月后我需要看到什么才能相信它"的答案。这就是检验标准。追踪答案,而不是公告。

非传统的赌注

你未采用的每个框架,都是你无需承担的迁移。你未追逐的每个基准测试,都是你保留下来的一个季度的专注。在这个周期中获胜的公司(Sierra、Harvey、Cursor 各自在其领域)选择了狭窄的目标,建立了枯燥的纪律,让行业的噪声从身边流过。

传统的路径是:选择一个技术栈,花多年精通它,爬梯子。当技术栈稳定十年时,这行得通。现在技术栈每季度都在变。获胜的人不再优化技术栈精通,而是开始优化品味、原语和交付速度。他们公开地做小东西。他们通过交付来学习。他们凭借已经做出的东西被邀请进入房间。凭证就是作品。

请花点时间思考这一点,因为这是整篇文章的真正要点。我们大多数人从小接受的工作模式假设世界静止得足够久,让凭证能够积累。你去上学。你拿到学位。你爬梯子。这里两年,那里三年,慢慢地简历变成了能打开门的东西。整个机器假设另一边是一个稳定的行业。

Agent 领域目前没有稳定的另一边。你可能想去的公司才成立六个月。它们所基于的框架才十八个月。底层的协议才两年。该领域被引用最多的文章有一半是三年前不在这个领域的人写的。没有梯子可爬,因为大楼一直在换楼层。当梯子不管用时,剩下的就是更古老的方法:做点东西,放到网上,让作品介绍你。这是非传统的路径,因为它忽略了凭证系统。它也是在不断变化的领域中唯一能积累的方式。

这就是从内部看到的时代面貌。即使是巨头也在公开迭代,发布回退,写事后分析,实时打补丁。今年发布最有趣东西的团队包括十八个月前不在这个领域的人。非程序员正在与 Agent 配对,交付真正的软件。博士们正在被那些选择了正确原语并开始行动的构建者超越。大门是敞开的。大多数人还在找申请表。

你现在真正需要培养的技能不是"Agent"。而是在表面不断变化的领域中,分辨出哪些工作能积累的纪律。上下文工程能积累。工具设计能积累。编排器-子 Agent 模式能积累。评估纪律能积累。驾驭心态能积累。了解周二发布的框架的 API 则不能。一旦你能区分这些,每周的发布潮就不再是压力,而是可以忽略的噪声。

你不需要学习所有东西。你需要学习那些能积累的东西,跳过那些不能的。选择一个结果。在交付之前就设置好追踪和评估。使用 LangGraph 或你团队的等效工具。使用 MCP。沙盒化你的运行时。默认使用单 Agent。当失败模式将其拉入时再增加范围。每季度重新评估模型。周五读三样东西。

这就是行动手册。剩下的就是品味、交付速度,以及不追逐无关之事的耐心。构建东西。把它们放到网上。这个时代奖励那些做出东西的人,胜过那些能描述东西的人。从来没有比现在更好的窗口期让你成为那个制造者。

更多可拆解样本

近期爆款文章

探索更多爆款文章

为创作者而生。

从全球 𝕏 爆款文章里发现选题,拆解它为什么能爆,再把可复用的内容结构变成你的下一篇创作灵感。