大部分 AI 工程師都知道如何建構一個 Agent。
但極少人知道如何建構一個能在第一次嘗試後不斷進步的系統。
這個差距,價值六位數。
以下是關鍵差異:
Agent 是工人。
迴圈是讓工人進步的機制。
當今最強大的 AI 生產系統,靠的不是單一模型呼叫。
它們靠的是迴圈。
生成 → 評估 → 學習 → 改進。
不斷重複。
直到產出真正達到標準。
以下是 20 個在生產級 AI 系統中反覆出現的迴圈設計模式。
請收藏這份清單。你將會用它們來建構系統。
Agent vs. 迴圈
舊方法:提示 → 回應 → 完成。
新方法:生成 → 批評 → 重寫 → 評分 → 重試 → 記憶 → 改進。
一個是只做一次工作的工廠工人。
另一個是研究每一個錯誤、重寫操作手冊、每一班次都進步 3% 的工廠工人。
現在正在推出生產級 AI 的團隊,並不是在寫更好的提示詞。
他們是在打造更好的迴圈。

類別 1 — 品質提升迴圈(在產出離開系統前,讓它變得更好)
1. 生成 → 批評 → 重寫
AI 工程中最重要的迴圈。
生成產出。批評者審查。生成者根據回饋重寫。重複直到滿足品質閾值。
不是一個模型。是兩個角色。一個管線。
1[生成者] → 草稿2[批評者] → 「第 3 段很模糊。缺少證據。語氣不對。」3[生成者] → 根據批評意見重寫4[批評者] → 「好多了。但結論仍然薄弱。」5[生成者] → 最終重寫
應用於:寫作、程式碼審查、報告、策略文件、銷售郵件。
關鍵洞見:負責生成的模型,並不是評判自己產出的最佳裁判。
獨立的批評者每次都能找出生成者遺漏的問題。

2. 評分與重試迴圈
生成。評分。若低於門檻則重試。
簡單。強大。卻未被充分利用。
1score = evaluate(output)23while score < threshold:4 output = generate(prompt)5 score = evaluate(output)6 attempts += 17 if attempts > max_retries:8 return best_so_far
最適合用於品質可量化的場景 — 例如提取準確度、格式合規性、事實正確性、潛在客戶評分。
生成者不知道自己在被評分。
評估者知道。
這種角色分離就是這個模式的核心。
3. 多重批評者迴圈
一個批評者會有盲點。
使用四個。
→ 正確性批評者:內容是否事實正確?
→ 風格批評者:內容是否清晰且文筆流暢?
→ 安全性批評者:內容是否恰當且安全?
→ 領域批評者:內容是否符合專業標準?
每個批評者獨立評估。
最終產出必須滿足全部四個條件才能通過。
應用於:醫療 AI、法律文件審查、金融分析、受監管內容。

4. 對抗性批評迴圈
批評者唯一的工作就是打破答案。
不是為了改進它,是為了打破它。
對抗性批評者提出的問題:
→ 哪些假設在此處不成立? → 缺少哪些證據? → 懷疑論者會怎麼說? → 這個答案在哪個地方看起來信心滿滿但其實是錯的?
生成者接著要嘛辯護,要嘛重寫。
最好的答案能存活下來的攻擊。
應用於:研究綜合、投資論點審查、策略規劃、風險分析。
5. 評審團整合迴圈
一個評審給出雜訊過多的分數。
五個評審則能平均掉雜訊。
將同一個產出交給多個評估者執行。
彙總分數。
只有獲得高度共識的產出才能晉級。
適用場景:單一模型評估不可靠、風險高、邊緣案例至關重要時。

類別 2 — 記憶迴圈(從發生過的事情中學習,讓下次更聰明)
6. 反思迴圈
目前最重要的自我改進模式。
Agent 失敗。Agent 分析失敗原因。Agent 儲存教訓。Agent 帶著該教訓重新嘗試。
每一次迭代:都比上一次更聰明。
1嘗試 1:失敗2反思:「我假設了 X,但 X 是錯的。下次要先驗證 X。」3嘗試 2:整合了教訓 → 部分成功4反思:「好多了。但我跳過了 Y。加入 Y 的檢查。」5嘗試 3:成功
這就是「只失敗一次的系統」與「只會失敗一次的系統」之間的差異。

7. 記憶更新迴圈
每次任務完成後,儲存三件事:
→ 做了什麼決策 → 結果為何 → 下次會如何不同做法
未來的運行會繼承這些知識。
第六個月的系統,與第一個月時的系統已經不一樣了。
它已經讀過自己六個月的歷史。
8. 錯誤庫迴圈
儲存每一次的失敗。
錯誤的答案。糟糕的產出。執行失敗。邊緣案例。
在對新任務採取行動之前:
先搜尋錯誤庫。
如果存在類似的失敗 → 甚至在開始之前就先套用已知的修復方法。
這個系統會停止重複犯同樣的錯誤。
這是生產級 AI 中最被低估的模式。
9. 成功模式迴圈
大多數工程師只儲存失敗。
也要儲存成功。
當任務執行順利時:
→ 儲存當時的方法 → 儲存當時的脈絡 → 儲存成功的原因
在面對類似任務時,提取成功的模式。
從勝利中學習,而不僅僅是從錯誤中學習。
10. 記憶壓縮迴圈
記憶會無止盡地增長。
無限制的記憶等於無法使用的記憶。
當累積了 N 個項目後:
將它們壓縮。
許多具體的記憶 → 變成少數更高層次的抽象概念。
1壓縮前:2「任務 A 因為 X 而失敗」3「任務 B 因為 X 而失敗」4「任務 C 因為 X 而失敗」56壓縮後:7「模式:X 會導致失敗。務必優先檢查 X。」
上下文保持可管理。模式保持易於存取。系統保持快速。

類別 3 — 規劃迴圈(當現實狀況改變時,調整計畫)
11. 規劃 → 執行 → 重新規劃
AI Agent 設計中最常見的錯誤:
將計畫視為固定不變。
計畫在接觸到現實時就會破局。
這個模式:
創建計劃 → 執行步驟 → 觀察結果 → 更新計劃 → 繼續。
不是瀑布式開發。
而是螺旋式。
每繞一圈,方法就更精準。
適用場景:環境變化、任務有依賴關係、長期目標。

12. 動態工作流程迴圈
大多數管線是固定的。
步驟 1 → 步驟 2 → 步驟 3。永遠不變。
動態工作流程會根據結果而改變。
如果產出是 A → 執行分支 X。如果產出是 B → 執行分支 Y。如果產出是 C → 跳到步驟 5。
管線在運行時自行決定其形狀。
應用於:多文件研究、客戶支援分流、自適應內容管線。
13. 目標分解迴圈
輸入一個大目標。
系統將其分解為子目標。
每個子目標分解為任務。
每個任務分解為步驟。
持續分解,直到每個單元都小到可以一次呼叫來執行。
1目標:「撰寫一份全面的競爭分析」2↓3子目標 1:「找出前 5 大競爭對手」4子目標 2:「分析每個對手的產品」5子目標 3:「比較定價模式」6子目標 4:「找出市場缺口」7↓8每個子目標 → 任務 → 個別模型呼叫
這個迴圈會不斷分解,直到系統能夠採取行動為止。
14. 進度評估迴圈
每進行 N 個步驟:停下來問。
「我們真的有在接近目標嗎?」
如果是:繼續當前策略。如果否:改變策略、工具或計畫。
系統會監控自己的進度。
而不是盲目執行。
應用於:長時間運行的研究 Agent、跨多日的自主任務、除錯 Agent。
15. 限制條件滿足迴圈
持續運行直到所有限制條件都滿足為止。
1while not all_constraints_satisfied(output):2 output = improve(output, unsatisfied_constraints)34constraints = [5 budget_under_limit, # 預算低於限制6 quality_above_threshold, # 品質高於門檻7 latency_under_200ms, # 延遲低於 200 毫秒8 tone_matches_brand, # 語氣符合品牌形象9 no_hallucinations # 無幻覺10]
在生產系統中非常常見。
在每一項業務規則都通過之前,產出都不算完成。

類別 4 — 探索迴圈(透過嘗試多種路徑來找到最佳答案)
16. 分支與探索迴圈
不要只投入一條路徑。
同時探索多條路徑。
1paths = [2 generate(approach="conservative"), # 生成(方法="保守")3 generate(approach="aggressive"), # 生成(方法="積極")4 generate(approach="creative") # 生成(方法="創意")5]67scores = [evaluate(p) for p in paths]8best = paths[scores.index(max(scores))]
比較結果。選擇最佳分支。捨棄其餘。
應用於:內容變化版本、架構決策、多假設除錯、A/B 生成。

17. 樹狀搜尋迴圈
分支與探索只深入一層。
樹狀搜尋則會深入到所需的深度。
擴展最有前景的節點。修剪最弱的節點。持續探索直到找到解決方案。
1根節點 → [A, B, C]2A → [A1, A2] # A 看起來有前景,擴展它3B → 修剪 # B 較弱,在此停止4A1 → [A1a, A1b]5A1a → 解決方案 ✓
應用於:複雜推理鏈、多步驟規劃、程式碼除錯、研究綜合。
計算成本高昂,但能找到單次傳遞呼叫無法找到的解決方案。
18. 辯論迴圈
兩個 Agent。一個主題。相反的立場。
Agent A 為答案辯護。Agent B 反對這個答案。
每一輪都挑戰假設、要求證據、暴露邏輯弱點。
最終答案透過分歧產生。
而非透過共識。
這種對抗壓力能找出自信的單一 Agent 答案所遺漏的問題。
應用於:投資決策、策略規劃、風險評估、研究評論。

類別 5 — 系統優化迴圈(迴圈改善迴圈本身)
19. 提示詞優化迴圈
大多數工程師寫好一個提示詞後就再也不去動它。
提示詞優化迴圈改變了這一點。
這個系統:
→ 在測試集上運行提示詞
→ 對每個產出進行評分
→ 找出提示詞在哪裡失敗
→ 重寫提示詞以修復這些失敗 → 重新運行並重新評分
提示詞會自動變得更好。
無需人為介入。
1current_prompt = "Summarize this document." # 當前提示詞 = "總結這份文件。"23for iteration in range(max_iterations):4 outputs = [run(current_prompt, doc) for doc in test_set]5 scores = [evaluate(o) for o in outputs]6 avg_score = mean(scores)78 if avg_score >= target:9 break1011 failures = [o for o, s in zip(outputs, scores) if s < threshold]12 current_prompt = improve_prompt(current_prompt, failures)13 # 提示詞根據其失敗之處自行重寫
應用於:生產管線、自動化內容系統、分類任務。
生產級 AI 中最好的提示詞並非由人類所寫。
它們是演化而來的。

20. 工作流程優化迴圈
這就是真正有趣的地方。
迴圈改善迴圈本身。
系統衡量自己的效能:
→ 延遲:每個步驟耗時多久?
→ 成本:每次呼叫使用多少 token?
→ 品質:每個階段的產出評分是多少?
然後它修改自己的工作流程。
太慢了?並行化兩個步驟。太貴了?在品質允許的地方,用較小的模型取代 GPT-4 呼叫。品質下降?在最終產出前加入一個批評者。
1metrics = measure_workflow(outputs, latency, cost)23if metrics.latency > target_latency:4 workflow = parallelize(slow_steps) # 並行化緩慢步驟56if metrics.cost > budget:7 workflow = replace_with_cheaper_model(high_cost_steps) # 用較便宜模型取代高成本步驟89if metrics.quality < threshold:10 workflow = add_critic_before(final_output_step) # 在最終產出步驟前加入批評者
這就是真正能自我改進的系統的起點。
不僅僅是產出在改進。
而是系統在重新設計自己。

貫穿所有 20 個模式背後的核心模式
上述每個迴圈都共享一個結構:
行動 → 觀察 → 評估 → 調整
這就是全部的秘訣。
產出絕非在第一次嘗試時就定案。
產出只是一個起點。
迴圈的功能,就是把一個起點,變成值得投入生產的東西。

完整地圖
類別 1 — 品質迴圈(在產出離開系統前,讓它變得更好)
→ 1. 生成 → 批評 → 重寫
→ 2. 評分與重試
→ 3. 多重批評者
→ 4. 對抗性批評
→ 5. 評審團整合
類別 2 — 記憶迴圈(從發生過的事情中學習)
→ 6. 反思
→ 7. 記憶更新
→ 8. 錯誤庫
→ 9. 成功模式
→ 10. 記憶壓縮
類別 3 — 規劃迴圈(當現實狀況改變時,調整計畫)
→ 11. 規劃 → 執行 → 重新規劃
→ 12. 動態工作流程
→ 13. 目標分解
→ 14. 進度評估
→ 15. 限制條件滿足
類別 4 — 探索迴圈(透過嘗試多種路徑來找到最佳答案)
→ 16. 分支與探索
→ 17. 樹狀搜尋
→ 18. 辯論
類別 5 — 系統優化迴圈(迴圈改善迴圈本身)
→ 19. 提示詞優化
→ 20. 工作流程優化
大多數工程師認為 Agent 是未來。
Agent 只是工人。
迴圈才是讓工人進步的關鍵。
目前在 AI 領域發生的最大轉變,並非更好的模型。
而是從:
提示 → 回應
轉變為:
生成 → 評估 → 學習 → 改進
那些掌握迴圈設計的團隊,將不會只是打造出更好的提示詞。
他們將打造出在部署後,每一天都會變得更好的系統。
完全不需要任何人手動調整。
如果這對你有幫助:
→ 轉發分享給你認識的每一位 AI 工程師
→ 追蹤 @sairahul1 獲取更多此類模式
→ 收藏這篇 — 選一個迴圈,這週就開始實作
我寫關於 AI、產品打造,以及那些不需要你也能運作的系統。





