Meta-Meta-Prompting:讓 AI Agent 發揮效用的秘訣

Meta-Meta-Prompting:讓 AI Agent 發揮效用的秘訣

@garrytan
英語5 天前 · 2026年5月09日

AI 功能

1.4M
3.5K
486
129
11.0K

TL;DR

Garry Tan 解釋了他為 AI Agent 設計的「Fat Skills, Thin Harness」架構,並詳細說明他如何利用 GBrain 等開源工具,打造一個能持續增長的個人知識庫與自動化工作流程。

人們一直問我,為什麼我總是在深夜 coding 到凌晨兩點。我有一份工作,而且是一份很重要的工作——Y Combinator 的 CEO。我們每年幫助數千位創業者,實現他們打造真正有營收、快速成長的初創公司的夢想。

在過去五個月裡,AI 讓我重新成為一個建造者。去年底,工具已經夠成熟,讓我重新開始動手建造。不是玩具專案,而是真正能產生複利效應的系統。我想用具體的例子向你展示,當你不再把個人 AI 當成一個聊天視窗,而是把它當作一個作業系統來使用時,它實際上是什麼樣子。我把這些東西開源,並寫成文章分享,因為我希望你能跟我一起加速前進。

這是系列文章的一部分:Fat Skills, Fat Code, Thin Harness 介紹了核心架構。Resolvers 涵蓋了智能的路由表。The LOC Controversy 探討了每個技術人員如何將自己放大 100 倍到 1000 倍。Naked models are stupider 論證了模型是引擎,而不是車子。而 the skillify manifesto 則解釋了為什麼 LangChain 籌集了 1.6 億美元,卻只給了你一個深蹲架和啞鈴組而沒有訓練計畫,然後再給了你真正需要的訓練計畫。

那本會「讀懂我」的書

上個月,我在讀佩瑪·丘卓的《當生命陷落時》。這本書有 162 頁,22 個章節,探討佛教如何看待痛苦、無常與放下。是一位朋友在我低潮時期推薦給我的。

我讓我的 AI 做了一次「書籍鏡像」。

具體來說是這樣:系統提取了書中全部 22 個章節,然後針對每個章節,執行一個子 Agent,同時做兩件事:總結作者的觀點,然後將每個觀點映射到我實際的生活中。不是那種「這適用於領導者」的泛泛之談,而是具體的映射。它知道我的家庭背景(移民父母,父親來自香港和新加坡,母親來自緬甸)。它知道我的專業背景(經營 YC、開發開源工具、指導數千位創業者)。它知道我在讀什麼、我在凌晨兩點在想什麼、我的治療師和我在處理什麼問題。

輸出是一份三萬字的大腦頁面。每個章節以兩欄呈現:佩瑪說了什麼,以及這如何映射到我正在經歷的事情。關於無常的那一章,連結到我前一週與一位創辦人的具體對話。關於恐懼的那一章,映射到我的治療師已經識別出的模式。關於放下的那一章,則引用了一次深夜 session,我在其中寫下了今年找到的創作自由。

整個過程大約花了 40 分鐘。一位時薪 300 美元的治療師,讀完這本書並將其應用到我的生活中,40 小時也做不到,因為他們沒有我完整的專業背景脈絡、閱讀歷史、會議記錄以及與創辦人的關係網絡——這些資料全都載入並可以交叉參照。

我已經對超過 20 本書做過同樣的事:《Amplified》(Dion Lim)、《Bertrand Russell 自傳》、《設計你的人生》、《天才兒童的悲劇》、《有限與無限的遊戲》、《海之禮》(Lindbergh)、《流浪者之歌》(赫塞)、《荒原狼》(赫塞)、《科學與工程之藝術》(Hamming)、《夢想機器》、《關於認識你是誰的禁忌之書》(Alan Watts)、《你管別人怎麼想》(費曼)、《當生命陷落時》(佩瑪·丘卓)、《萬法簡史》(肯·威爾伯)等等。每一本都因為大腦的成長而變得更豐富。第二面鏡子知道第一面鏡子的存在。第二十面鏡子知道前面十九面的一切。

書籍鏡像如何透過迭代變得更好

我做的第一次書籍鏡像糟透了。第一版關於我家人的事實錯誤有三處。它說我父母離婚了,但實際上並沒有。說我在香港長大,但我出生在加拿大。這些基本錯誤如果分享出去,可能會破壞信任。

所以我加入了一個強制性的事實查核步驟。現在,每個鏡像在產出之前,都會針對大腦中已知的事實進行跨模態評估。Opus 4.7 1M 負責捕捉精確性錯誤。GPT-5.5 負責捕捉遺漏的脈絡。DeepSeek V4-Pro 負責偵測哪些內容讀起來像是泛泛之談。

接著,我升級到使用 GBrain 工具進行深度檢索。原始版本擅長綜合,但在具體性上較弱。第三版對每個章節進行大腦搜尋。右欄的每個條目都引用了實際的大腦頁面。當書中談到處理困難對話時,它不只是綜合一般原則。它會從我與特定創辦人的實際會議記錄中提取內容——那些正在與共同創辦人進行艱難對話的創辦人。或者是我某個星期四和我弟弟 James 閒晃時想到的想法。或者是我 19 歲時與大學室友的即時通訊對話。這簡直不可思議。

這就是「技能化」(在 GBrain 中使用 /skillify)在實踐中的意義。我將第一次手動嘗試的過程,提取出可重複的模式,撰寫了一個經過測試的技能檔案,包含觸發條件和邊緣情況,而每一次的修正都會在未來所有的書籍鏡像中產生複利效應。

技能建構技能

這裡開始進入遞迴,我認為這也是最大的洞見所在。

管理我生活的系統並非一個單體。它是由技能組合而成的。而這些技能本身,又是由一個技能所創造的。

Skillify 是一個後設技能,用來創造新的技能。當我遇到一個我會重複執行的工作流程時,我會說「skillify 這個」,它就會檢查剛剛發生的事,提取出可重複的模式,撰寫一個經過測試的技能檔案(包含觸發條件和邊緣情況),並在 resolver 中註冊。書籍鏡像的管線,就是在我第一次手動完成後被技能化的。會議準備的工作流程,則是在我注意到自己在每次通話前都做同樣的步驟後被技能化的。

技能可以組合。書籍鏡像會呼叫 brain-ops 進行儲存、enrich 取得脈絡、cross-modal-eval 確保品質,以及 pdf-generation 產生輸出。每個技能專注於一件事。它們串聯起來形成複雜的工作流程。當我改進一個技能時,所有使用它的工作流程都會自動變得更好。不再有「忘記在提示詞中提到這個邊緣情況」的問題。技能會記住。

那場自己準備好的會議

Demis Hassabis 來 YC 進行一場爐邊對談。Sebastian Mallaby 為他寫的傳記那時剛出版。

我讓系統幫我準備。

在不到兩分鐘內,它提取了:Demis 的完整大腦頁面(已經從文章、播客逐字稿和我自己的筆記中累積了數月)。他公開表達的關於 AGI 時間表的信念(「50% 規模化,50% 創新」,認為 AGI 在 5-10 年內會實現)。Mallaby 傳記的重點。他公開聲明的研究優先事項(持續學習、世界模型、長期記憶)。與我公開談論 AI 的言論的交叉參照。三個展示大腦在對話中進行多跳推理能力的示範腳本。以及一組基於我們世界觀重疊與分歧之處的對話鉤子。

這不只是更好的 Google 搜尋。這是一份利用了我關於 Demis 的累積脈絡、我自己的立場,以及這次對話的策略目標所進行的準備工作。系統準備的不只是事實,還有切入角度。

十萬頁的大腦是什麼樣子

我維護一個結構化的知識庫,大約有十萬頁。我遇到的每個人,都有一個包含時間線、狀態區塊(目前為真的事實)、未解決的討論串和分數的頁面。每次會議都有逐字稿、結構化摘要,以及我所謂的「實體傳播」:每次會議後,系統會遍歷所有被提及的人和公司,並用討論的內容更新他們的大腦頁面。我讀的每本書,都會有逐章的鏡像。我接觸的每篇文章、播客和影片,都會被吸收、標記和交叉參照。

架構很簡單。每個頁面包含:頂端的「編譯後真相」(目前最佳的理解)、下方的「僅附加時間線」(按時間順序的事件),以及用於原始資料的「原始數據側欄」。把它想像成一個個人維基百科,每個頁面都由一個參與過會議、讀過電子郵件、看過演講、吸收過 PDF 的 AI 持續更新。

這裡有個例子說明這如何產生複利效應。我在辦公時間遇到一位創辦人。系統會建立或更新他們的個人頁面、公司頁面,交叉參照會議記錄,檢查我之前是否見過他們(並呈現我們上次討論的內容),檢查他們的申請資料,提取他們最新的指標,並識別我的投資組合公司或聯絡人中是否有任何與他們的問題相關。當我下次與他們開會時,系統已經準備好一份完整的脈絡包。

這就是擁有檔案櫃和擁有神經系統之間的區別。檔案櫃儲存東西。神經系統則將它們連結起來,標記出什麼改變了,並呈現出與當下相關的內容。

架構

以下是它的運作方式。我認為這是建立個人 AI 的正確方法,而且我已經將整個系統開源,讓你可以自己建構。

Harness 是薄的。 OpenClaw 是執行環境。它接收我的訊息,判斷哪個技能適用,然後進行調度。幾千行的路由邏輯。它對書籍、會議或創辦人一無所知。它只是負責路由。

技能是厚的。 現在已經超過 100 個,每個都是一個獨立的 Markdown 檔案,包含一個特定任務的詳細指示。你已經看過上面的書籍鏡像和會議準備。以下是隨 GBrain 一起提供的另外幾個:

  • meeting-ingestion:每次會議後,它會提取逐字稿,建立結構化摘要,然後遍歷所有被提及的人和公司,並用討論的內容更新他們的大腦頁面。會議頁面不是最終產物。將實體傳播回每個人和公司的頁面,才是真正的價值所在。
  • enrich:輸入一個人的名字。它會從五個不同的來源提取資訊,將所有內容合併成一個包含職業生涯軌跡、聯絡資訊、會議歷史和關係脈絡的單一大腦頁面。每個主張都附有引用來源。
  • media-ingest:處理影片、音訊、PDF、螢幕截圖、GitHub 儲存庫。進行轉錄、提取實體、歸檔到正確的大腦位置。我經常在 YouTube 影片、播客和語音備忘錄中使用這個。
  • perplexity-research:大腦增強的網路研究。透過 Perplexity 搜尋網路,但在綜合之前,會檢查大腦已經知道什麼,這樣它就能告訴你什麼是真正的新資訊,而不是你已經記錄過的內容。

我還有幾十個為自己工作而建構的技能,未來可能會開源:email-triage、investor-update-ingest(偵測郵件中的投資組合更新並將指標提取到公司頁面)、calendar-check(用於衝突偵測和旅行不可行性檢查),以及一套我用於公民工作的完整新聞研究工具。每個技能都編碼了需要新人類助理數月才能學會的操作知識。當有人問我如何「提示」我的 AI 時,答案是:我不需要。技能本身就是提示詞。

數據是厚的。 大腦儲存庫中有十萬頁的結構化知識。我接觸過的每個人、公司、會議、書籍、文章和想法,全都連結在一起,全部可搜尋,每天都在增長。

程式碼是厚的。 餵養它的程式碼(用於轉錄、OCR、社交媒體歸檔、日曆同步、API 整合的腳本)也很重要,但數據才是複利價值所在。我每天運行超過 100 個 cron 任務,檢查所有東西:社交媒體、Slack、電子郵件,任何我關注的事物,我的 OpenClaw/Hermes Agents 也會幫我查看。

模型是可互換的。 我使用 Opus 4.7 1M 處理精確性任務。GPT-5.5 處理回憶和詳盡提取。DeepSeek V4-Pro 處理創意工作和第三方觀點。Groq 搭配 Llamma 處理速度需求。技能會決定哪個任務該呼叫哪個模型。Harness 不在乎。當有人問「哪個 AI 模型最好」時,答案是:問錯了問題。模型只是引擎。其他一切都是車子。

凌晨兩點的建造者與複利系統

人們問我關於生產力的事。我不這麼想。我想的是複利效應。

我參加的每一次會議,都會為大腦增添內容。我讀的每一本書,都會豐富下一本書的脈絡。我建立的每一個技能,都會讓下一個工作流程更快。我更新的每一個人物頁面,都會讓下一次會議準備更精準。這個系統現在比兩個月前強大了 10 倍,而兩個月後它又會再強大 10 倍。

當我還在凌晨兩點 coding 時(我經常這樣,因為 AI 讓我重新找回了建造的樂趣),我不只是在寫軟體。我是在為一個每小時都在變好的系統添磚加瓦。100 個 cron 任務 24/7 運行。會議吸收自動執行。郵件分類每 10 分鐘運行一次。知識圖譜從每一次對話中自我豐富。系統處理每天的逐字稿,並提取我在即時中遺漏的模式。

這不是一個寫作工具。它不是搜尋引擎。它不是聊天機器人。這是一個真正運作的第二個大腦,不是一個隱喻,而是一個正在運行的系統,擁有十萬頁、超過 100 個技能、15 個 cron 任務,以及過去一年我接觸過的每一個專業關係、會議、書籍和想法的累積脈絡。

我已經將整個技術堆疊開源。GStack 是我用來建構它的 coding 技能框架(超過 87,000 顆星)。當 Agent 需要 coding 時,我仍然在 OpenClaw/Hermes Agent 內部將其作為一個技能使用。裡面有一個很棒的程式化瀏覽器(支援有頭和無頭模式)。GBrain 是知識基礎設施。OpenClawHermes Agent 是 harness,你應該選擇一個,但我通常兩個都用。數據儲存庫在 GitHub 上。

論點很簡單:未來屬於那些建立複利 AI 系統的個人,而不是那些使用企業擁有的集中式 AI 工具的個人。兩者的區別,就像寫日記和擁有神經系統之間的區別。

如何開始

如果你想建立這個系統:

  1. 選擇一個 Harness。 OpenClawHermes Agent,或者用 Pi 從頭開始自己建構。保持精簡。Harness 只是一個路由器。把它託管在你家裡備用電腦上(搭配 Tailscale),或者使用 Render 或 Railway 雲端服務。
  2. 用 [GBrain](https://github.com/garrytan/gbrain) 啟動一個大腦。 我受到 Karpathy 的 LLM Wiki 啟發,在 OpenClaw 中實現了它,並擴展成 GBrain。這是我 基準測試過最好的檢索系統(在 LongMemEval 上達到 97.6% 的召回率,在檢索迴圈中沒有使用 LLM 的情況下擊敗了 MemPalace),並且它附帶了 39 個可安裝的技能,包括本文描述的所有內容。一個指令即可安裝。一個 git 儲存庫,讓每個人、會議、文章和想法都有一個頁面。
  3. 做點有趣的事。 不要從規劃你的技能架構開始。從做一件事開始。寫一份報告。研究一個人。下載一個賽季的 NBA 比分,為你的運動賭注建立一個預測模型。分析你的投資組合。任何你真正關心的事情。用你的 Agent 去做,迭代直到它變好,然後執行 Skillify(前面提到的後設技能)將模式提取成一個可重複使用的技能。接著執行 check_resolvable 來驗證新技能已連接到 resolver。這個循環會將一次性工作轉變為複利基礎設施。
  4. 持續使用它並檢視輸出。 技能一開始會很平庸。這就是重點。使用它,閱讀它產出的東西,當有問題時,執行跨模態評估:將輸出發送給多個模型,讓它們在你關心的維度上互相評分。這就是我如何發現書籍鏡像中的事實錯誤。修正被融入技能中,之後的每個鏡像都很乾淨。六個月後,你將擁有任何聊天機器人都無法複製的東西,因為價值不在於模型。而是在於你教會了系統關於你特定生活、工作和判斷的知識。

我用這個系統建造的第一個東西糟透了。第一百個東西,是我願意將我的行事曆、收件匣、會議準備和閱讀清單託付給它的東西。系統學會了。我也學會了。複利曲線是真實存在的。

厚的技能。厚的程式碼。薄的 Harness。LLM 本身只是一個引擎。你可以建造屬於你自己的車子。

我在此描述的一切,所有的技能、書籍鏡像管線、跨模態評估框架、skillify 循環、resolver 架構,以及超過 30 個可安裝的技能包,都是開源的,並且在 GitHub 上免費提供:github.com/garrytan/gbrain。去建造吧。

更多可拆解樣本

近期爆款文章

探索更多爆款文章

為創作者而生。

從全球 𝕏 爆款文章裡發現選題,拆解它為什麼能爆,再把可複用的內容結構變成你的下一篇創作靈感。