Meta-Meta-Prompting:让 AI Agents 发挥效能的秘诀

Meta-Meta-Prompting:让 AI Agents 发挥效能的秘诀

@garrytan
英语3天前 · 2026年5月09日

AI 功能

1.3M
3.4K
463
124
10.7K

TL;DR

Garry Tan 阐述了他为 AI Agents 设计的“胖技能、瘦约束”(Fat Skills, Thin Harness)架构,并详细介绍了如何利用 GBrain 等开源工具构建可不断进化的个人知识库及自动化工作流。

人们一直问我,为什么我每晚都要 coding 到凌晨 2 点。我有一份工作,而且是一份重要的工作——作为 Y Combinator 的 CEO。我们每年帮助成千上万的创业者实现梦想,打造真正有收入、快速增长的真实初创公司。

在过去的 5 个月里,AI 让我重新成为了一个 builder。去年年底,工具变得足够好,我又开始动手了。不是玩具项目,而是真正能产生复利效应的系统。我想用具体的例子向你展示,当你不再把个人 AI 当作一个聊天窗口,而是当作一个操作系统时,它到底是什么样子。我把它开源,并写成这样的文章,因为我希望你也能跟我一起加速。

这是系列文章的一部分:Fat Skills, Fat Code, Thin Harness 介绍了核心架构。Resolvers 涵盖了智能的路由表。The LOC Controversy 讲的是每个技术人员如何让自己效率提升 100 倍到 1000 倍。Naked models are stupider 论证了模型是引擎,而不是汽车本身。the skillify manifesto 解释了为什么 LangChain 融资 1.6 亿美元,却给了你一个深蹲架和哑铃却没有训练计划,然后又给了你真正需要的训练计划。

那本反过来读懂我的书

上个月我在读 Pema Chödrön 的《当生命陷落时》。这本书有 162 页,22 章,探讨佛教对痛苦、无根基和放下的态度。一位朋友在我困难时期推荐了它。

我让我的 AI 做了一次“书籍镜像”。

具体来说:系统提取了全书 22 章的内容,然后对每一章运行了一个子 Agent,同时做两件事:总结作者的观点,然后将每个观点映射到我实际的生活中。不是那种泛泛的“这对领导者适用”的废话,而是具体的映射。它了解我的家庭背景(移民父母,父亲来自香港和新加坡,母亲来自缅甸),了解我的职业背景(运营 YC、构建开源工具、指导数千名创始人),了解我最近在读什么、凌晨 2 点在思考什么、我和治疗师在探讨什么。

输出是一份 30,000 字的脑页面。每一章呈现为两栏:Pema 说了什么,以及它如何映射到我正在经历的事情。关于无根基的那一章,联系到了我上周与一位创始人的具体对话。关于恐惧的那一章,映射到了我的治疗师发现的行为模式。关于放下的那一章,引用了我某次深夜写作中关于今年找到的创作自由。

整个过程大约花了 40 分钟。一位每小时 300 美元的治疗师,读了这本书并应用到我的生活中,40 小时也做不到,因为他们没有我完整的职业背景、阅读历史、会议记录和创始人关系图谱——所有这些都加载并可以交叉引用。

我现在已经对 20 多本书做了这样的处理:《放大》(Dion Lim)、《罗素自传》、《设计你的人生》、《天才儿童的悲剧》、《有限与无限的游戏》、《海的礼物》(林德伯格)、《悉达多》(黑塞)、《荒原狼》(黑塞)、《科学和工程的艺术》(Hamming)、《梦想机器》、《关于认识你自己的禁忌之书》(Alan Watts)、《管别人怎么想》(费曼)、《当生命陷落时》(Pema Chodron)、《万法简史》(Ken Wilber)等等。每一本都变得更丰富,因为大脑变得更丰富。第二次镜像知道了第一次的内容。第二十次知道了前十九次的内容。

书籍镜像如何通过迭代变得更好

我做的第一个书籍镜像很糟糕。版本 1 对我的家庭有三处事实错误。它说我父母离婚了,但实际上没有。说我是在香港长大的,但我出生在加拿大。这些基本错误如果分享出去,会损害信任。

所以我增加了一个强制的事实核查步骤。现在每个镜像在输出之前,都会对大脑中已知的事实进行跨模态评估。Opus 4.7 1M 捕捉精度错误,GPT-5.5 捕捉缺失的上下文,DeepSeek V4-Pro 捕捉那些读起来过于泛泛的内容。

然后我升级到了使用 GBrain 工具进行深度检索。原始版本擅长综合,但缺乏具体性。版本 3 对每个部分进行大脑搜索。右侧栏的每个条目都引用了实际的大脑页面。当书里谈到处理困难对话时,它不只是综合一般原则,而是从我实际与特定创始人的会议记录中提取——那些创始人正在与联合创始人进行艰难对话。或者是我某个周四和哥哥 James 闲逛时产生的想法。或者是我 19 岁时和大学室友的 IM 聊天。这太不可思议了。

这就是技能化(在 GBrain 中使用 /skillify)在实践中的意义。我把第一次手动尝试提取出来,找出可重复的模式,编写了一个经过测试的技能文件,包含触发条件和边界情况,每一次修复都会在所有未来的书籍镜像中产生复利效应。

技能构建技能

这里开始递归,我认为这是最大的洞见。

管理我生活的系统并不是一个整体。它是由技能组装而成的。而这些技能本身又是由一个技能创建的。

Skillify 是一个元技能,用于创建新技能。当我遇到一个会重复的工作流时,我会说“skillify this”,它会检查刚刚发生了什么,提取可重复的模式,编写一个经过测试的技能文件(包含触发条件和边界情况),并将其注册到 resolver 中。书籍镜像管道在我第一次手动操作后就被技能化了。会议准备工作流在我注意到每次通话前都在做同样的步骤后也被技能化了。

技能可以组合。书籍镜像调用 brain-ops 进行存储,enrich 获取上下文,cross-modal-eval 进行质量检查,pdf-generation 生成输出。每个技能专注于一件事。它们串联起来形成复杂的工作流。当我改进一个技能时,所有使用它的工作流都会自动改进。不再有“忘记在提示词中提到这个边界情况”的问题。技能会记住。

自动准备的会议

Demis Hassabis 来 YC 做炉边谈话。Sebastian Mallaby 为他写的传记刚刚出版。

我让系统为我做准备。

不到两分钟,它拉取了:Demis 的完整大脑页面(几个月来从文章、播客文字稿和我自己的笔记中积累的),他公开表达的对 AGI 时间线的看法(“50% 规模扩展,50% 创新”,认为 AGI 还有 5-10 年),Mallaby 传记的要点,他公开的研究重点(持续学习、世界模型、长期记忆),与我公开说过的关于 AI 的内容的交叉引用,三个用于在对话中展示大脑多跳推理能力的演示脚本,以及基于我们世界观重叠和分歧之处的一组对话切入点。

这不仅仅是更好的 Google 搜索。这是利用我积累的关于 Demis 的背景、我自己的立场以及对话的战略目标所做的准备。系统准备的不仅仅是事实,还有角度。

10 万页大脑是什么样子

我维护着一个结构化的知识库,大约有 10 万页。我遇到的每个人都有一个页面,包含时间线、状态部分(当前真实情况)、未完成事项和评分。每次会议都有文字稿、结构化摘要,以及我称之为“实体传播”的东西:每次会议后,系统会遍历所有提到的人和公司,并用讨论的内容更新他们的大脑页面。我读的每本书都有逐章镜像。我接触的每篇文章、播客和视频都会被摄取、标记和交叉引用。

模式很简单。每个页面都有:顶部的“编译真相”(当前最佳理解),下面的“仅追加时间线”(按时间顺序的事件),以及原始数据的侧边栏(用于源材料)。可以把它想象成一个个人维基百科,每个页面都由一个参加了会议、读了邮件、看了演讲、摄取了 PDF 的 AI 持续更新。

下面是一个例子,说明这如何产生复利效应。我在办公时间遇到一位创始人。系统会创建或更新他们的个人页面、公司页面,交叉引用会议记录,检查我之前是否见过他们(并显示上次讨论的内容),检查他们的申请数据,拉取他们最新的指标,并识别我的投资组合公司或联系人中是否有与他们的问题相关的。当我走进下一次与他们的会议时,系统已经准备好了一个完整的上下文包。

这就是文件柜和神经系统之间的区别。文件柜存储东西。神经系统连接它们,标记变化,并浮现出与当前相关的内容。

架构

下面是它的工作原理。我认为这是构建个人 AI 的正确方式,而且我把整个系统开源了,这样你也可以自己构建。

Harness 很薄。OpenClaw 是运行时。它接收我的消息,判断哪个技能适用,然后调度。几千行的路由逻辑。它不知道任何关于书、会议或创始人的事情。它只是路由。

技能很厚。现在有 100 多个,每个都是一个独立的 Markdown 文件,包含一个特定任务的详细指令。你已经看到了上面的书籍镜像和会议准备。下面还有几个随 GBrain 一起提供的:

  • meeting-ingestion:每次会议后,拉取文字稿,创建结构化摘要,然后遍历所有提到的人和公司,并用讨论的内容更新他们的大脑页面。会议页面不是最终产品。实体传播回每个个人和公司页面才是真正的价值。
  • enrich:输入一个人的名字。从五个不同来源拉取信息,合并成一个包含职业轨迹、联系方式、会议历史和关系背景的大脑页面。每个声明都注明来源。
  • media-ingest:处理视频、音频、PDF、截图、GitHub 仓库。转录、提取实体、归档到正确的大脑位置。我经常用它来处理 YouTube 视频、播客和语音备忘录。
  • perplexity-research:大脑增强的网络研究。通过 Perplexity 搜索网络,但在综合之前,先检查大脑已经知道什么,这样它就能告诉你哪些是真正新的,哪些是你已经捕获的。

我还有几十个为自己工作构建的技能,可能会开源:email-triage、investor-update-ingest(检测邮件中的投资组合更新并将指标提取到公司页面)、calendar-check(用于冲突检测和旅行不可能性),以及我用于公民工作的整套新闻研究栈。每个技能都编码了操作知识,这些知识需要新的人类助理几个月才能学会。当有人问我如何“提示”我的 AI 时,答案是:我不提示。技能就是提示词。

数据很厚。大脑仓库中有 10 万页结构化知识。我接触过的每个人、公司、会议、书、文章和想法,都链接在一起,可搜索,每天都在增长。

代码很厚。喂养它的代码(用于转录、OCR、社交媒体归档、日历同步、API 集成的脚本)也很重要,但数据才是复利价值的所在。我每天运行 100 多个 cron 任务来检查所有事情:社交媒体、Slack、邮件、我关注的任何东西,我的 OpenClaw/Hermes Agents 也会为我检查。

模型是可互换的。我用 Opus 4.7 1M 处理精度,GPT-5.5 处理召回和详尽提取,DeepSeek V4-Pro 处理创意工作和第三方视角,Groq 搭配 Llamma 处理速度。技能决定为哪个任务调用哪个模型。Harness 不关心。当有人问“哪个 AI 模型最好”时,答案是:问错了问题。模型只是引擎。其他一切都是汽车。

凌晨 2 点的 Builder 和复利系统

人们问我关于生产力的问题。我不这么想。我想的是复利。

我参加的每一次会议都会添加到大脑中。我读的每一本书都会丰富下一本书的上下文。我构建的每一个技能都会让下一个工作流更快。我更新的每一个个人页面都会让下一次会议准备更精准。今天的系统比两个月前强了 10 倍,两个月后又会再强 10 倍。

当我凌晨 2 点还在 coding 时(我经常这样,因为 AI 让我重新找回了构建的乐趣),我不只是在写软件。我是在为一个每小时都在变好的系统添砖加瓦。100 个 cron 任务全天候运行。会议摄取自动进行。邮件分类每 10 分钟运行一次。知识图谱从每一次对话中自我丰富。系统处理每天的文字稿,提取我在实时中遗漏的模式。

这不是一个写作工具。不是搜索引擎。不是聊天机器人。它是一个真正有效的第二大脑,不是比喻,而是一个运行中的系统,拥有 10 万页、100 多个技能、15 个 cron 任务,以及过去一年我接触过的所有职业关系、会议、书籍和想法的积累上下文。

我把整个栈开源了。GStack 是我用来构建它的 coding 技能框架(87,000+ 星)。当 Agent 需要 coding 时,我仍然把它作为 OpenClaw/Hermes Agent 内部的一个技能来使用。里面还有一个很棒的可编程浏览器(有头和无头模式)。GBrain 是知识基础设施。OpenClawHermes Agent 是 harness,你应该选择,但我通常两者都用。数据仓库在 GitHub 上。

论点很简单:未来属于那些构建复利 AI 系统的个人,而不是那些使用企业拥有的集中式 AI 工具的个人。区别在于写日记和拥有神经系统之间的区别。

如何开始

如果你想构建这个:

  1. 选择一个 harness。OpenClawHermes Agent,或者用 Pi 从头开始构建你自己的。保持薄。Harness 只是路由器。把它托管在你家里的备用电脑上,用 Tailscale,或者用 Render 或 Railway 在云端。
  2. GBrain 开始一个大脑。我受到 Karpathy 的 LLM Wiki 启发,在 OpenClaw 中实现并扩展成了 GBrain。它是 我 benchmark 过的最佳检索系统(在 LongMemEval 上达到 97.6% 的召回率,在检索循环中没有 LLM 就击败了 MemPalace),并且附带 39 个可安装的技能,包括本文描述的所有内容。一条命令安装。一个 git 仓库,每个人、会议、文章和想法都有一个页面。
  3. 做一些有趣的事情。不要从规划你的技能架构开始。从做一件事开始。写一份报告。研究一个人。下载一个赛季的 NBA 比分,为你的体育博彩构建一个预测模型。分析你的投资组合。无论你真正关心什么。用你的 Agent 去做,迭代直到它变好,然后运行 Skillify(之前的元技能)来提取模式成一个可复用的技能。然后运行 check_resolvable 来验证新技能已连接到 resolver。这个循环将一次性工作转化为复利基础设施。
  4. 持续使用它并查看输出。技能一开始会很平庸。这正是重点。使用它,阅读它产生的内容,当有什么不对时,运行跨模态评估:将输出发送给多个模型,让它们在你关心的维度上互相评分。这就是我如何发现书籍镜像中的事实错误。修复被烘焙进了技能,之后所有的镜像都是干净的。六个月后,你将拥有任何聊天机器人无法复制的东西,因为价值不在于模型,而在于你教给系统关于你特定生活、工作和判断的东西。

我用这个系统构建的第一个东西很糟糕。第一百个东西,我会信任它来处理我的日历、收件箱、会议准备和阅读清单。系统学习了。我学习了。复利曲线是真实的。

厚技能。厚代码。薄 Harness。LLM 本身只是引擎。你可以构建自己的汽车。

我在这里描述的一切,所有的技能、书籍镜像管道、跨模态评估框架、skillify 循环、resolver 架构,以及 30 多个可安装的技能包,都是开源的,在 GitHub 上免费提供:github.com/garrytan/gbrain。去构建吧。

更多可拆解样本

近期爆款文章

探索更多爆款文章

为创作者而生。

从全球 𝕏 爆款文章里发现选题,拆解它为什么能爆,再把可复用的内容结构变成你的下一篇创作灵感。