面向生产级 Agent 的 20 个 AI 循环设计模式

大部分 AI 工程师知道如何构建一个 Agent。

但很少有人知道如何构建一个能在第一次尝试后不断改进的系统。

这个差距价值六位数。

区别在于：

Agent 是一个工人。

循环是让工人进步的方法。

目前生产环境中能力最强的 AI 系统，靠的不是单次模型调用。

它们靠的是循环。

生成 → 评估 → 学习 → 改进。

一次又一次。

直到输出真正达到要求。

以下是生产级 AI 系统中反复出现的 20 种循环设计模式。

收藏起来。你会用到这些模式。

Agent 与循环

旧方式：提示 → 响应 → 完成。

新方式：生成 → 批判 → 重写 → 评分 → 重试 → 记忆 → 改进。

一种是只做一次工作的工厂工人。

另一种是每次轮班都研究每一个错误、重写操作手册、提升 3% 的工厂工人。

现在正在交付生产级 AI 的团队并不是在写更好的提示词。

他们是在构建更好的循环。

类别 1 — 质量改进循环（让输出在离开系统前变得更好）

1. 生成 → 批判 → 重写

AI 工程中最重要的循环。

生成输出。批评者审阅。生成者根据反馈重写。重复直到达到质量标准。

不是一个模型。是两个角色。一条流水线。

text

1[生成者] → 草稿
2[批评者] → "第三段模糊不清。缺少证据。语气不对。"
3[生成者] → 根据批评重写
4[批评者] → "好多了，但结论仍然薄弱。"
5[生成者] → 最终重写

用于：写作、代码审查、报告、策略文档、销售邮件。

洞见：负责生成的模型并不是自己输出的最好评委。

独立的批评者每次都能发现生成者遗漏的问题。

2. 评分重试循环

生成。评分。低于阈值则重试。

简单。强大。被低估。

score = evaluate(output)

text

1score = evaluate(output)
2
3while score < threshold:
4    output = generate(prompt)
5    score = evaluate(output)
6    attempts += 1
7    if attempts > max_retries:
8        return best_so_far

最适合质量可衡量的场景——提取准确率、格式合规、事实准确性、线索评分。

生成者不知道自己在被评分。

评估者知道。

这种分离就是模式本身。

3. 多批评者循环

一个批评者有盲点。

用四个。

→ 正确性批评者：事实是否准确？

→ 风格批评者：表达是否清晰、文笔是否优美？

→ 安全批评者：内容是否合适、安全？

→ 领域批评者：是否符合专业标准？

各自独立评估。

最终输出必须满足全部四个批评者才能放出。

用于：医疗 AI、法律文档审查、财务分析、受监管内容。

4. 对抗式批评循环

批评者的唯一任务就是拆穿答案。

不是改进它。而是拆穿它。

对抗式批评者会问：

→ 这里有哪些假设不成立？→ 缺少哪些证据？→ 怀疑论者会怎么说？→ 哪里是看似正确但实际错误的？

生成者随后进行辩护或重写。

最棒的答案才能经受住攻击。

用于：研究综合、投资论点审查、战略规划、风险分析。

5. 评审团循环

一个评委给出的分数带有噪声。

五个评委能平均掉噪声。

将同一输出送入多个评估器。

汇总分数。

只有获得高度共识的输出才能进入下一步。

用于：单模型评估不可靠、风险高、边缘情况很重要的场景。

类别 2 — 记忆循环（从发生过的事情中学习，让下一次更聪明）

6. 反思循环

目前最重要、能自我改进的模式。

Agent 失败。Agent 分析失败原因。Agent 存储教训。Agent 带着教训重试。

每次迭代都比上一次更聪明。

text

1尝试 1：失败
2反思："我假设了 X，但 X 是错的。下次先验证 X。"
3尝试 2：融入教训 → 部分成功
4反思："好多了。但跳过了 Y。增加 Y 检查。"
5尝试 3：成功

这就是"失败一次"的系统与"只失败一次"的系统的区别。

7. 记忆更新循环

每次任务完成后，存储三件事：

→ 做了什么决定 → 结果是什么 → 下次会怎么做

后续运行继承这些知识。

第 6 个月的系统已经不再是第 1 个月的系统。

它读过了自己 6 个月的历史。

8. 错误库循环

存储每一个失败。

错误答案。糟糕输出。执行失败。边缘情况。

在处理新任务之前：

先搜索错误库。

如果存在类似失败 → 在开始之前就应用已知修复。

系统不会再犯同样的错误。

生产级 AI 中最被低估的模式。

9. 成功模式循环

大多数工程师只存储失败。

也要存储成功。

当任务进展顺利时：

→ 保存方法 → 保存上下文 → 保存成功的关键

面对类似任务时，检索成功的模式。

从胜利中学习，而不仅仅是从错误中学习。

10. 记忆压缩循环

记忆会无限增长。

无限记忆等于不可用记忆。

当积累到 N 条后：

进行压缩。

许多具体记忆 → 少数更高级别的抽象。

text

1压缩前：
2"任务 A 因为 X 失败"
3"任务 B 因为 X 失败"
4"任务 C 因为 X 失败"
5
6压缩后：
7"模式：X 导致失败。始终先检查 X。"

上下文保持可控。模式保持可访问。系统保持高效。

类别 3 — 规划循环（当现实变化时调整计划）

11. 规划 → 执行 → 重新规划

AI Agent 设计中最常见的错误：

把计划当作固定的。

计划在接触现实时就会崩溃。

模式：

创建计划 → 执行步骤 → 观察结果 → 更新计划 → 继续

不是瀑布式。

而是螺旋式。

每绕一圈，方法就更精确。

用于：环境变化、任务有依赖关系、长期目标。

12. 动态工作流循环

大多数流水线是固定的。

步骤 1 → 步骤 2 → 步骤 3。始终如此。

动态工作流根据结果而变化。

如果输出 A → 运行分支 X 如果输出 B → 运行分支 Y 如果输出 C → 跳到步骤 5

流水线在运行时决定自己的形状。

用于：多文档研究、客服路由、自适应内容流水线。

13. 目标分解循环

输入大目标。

系统将其分解为子目标。

每个子目标分解为任务。

每个任务分解为步骤。

一直分解到每个单元小到可以一次调用完成。

text

1目标："撰写一份全面的竞争分析"
2↓
3子目标 1："确定前 5 名竞争对手"
4子目标 2："分析每个竞争对手的产品"
5子目标 3："比较定价模式"
6子目标 4："找出差距"
7↓
8每个子目标 → 任务 → 单独的模型调用

循环不断分解，直到系统能够行动。

14. 进度评估循环

每 N 步：停下来问一问。

"我们真的在接近目标吗？"

如果是：继续当前策略。如果否：改变策略、工具或计划。

系统监控自己的进度。

而不是盲目执行。

用于：长时间运行的研究 Agent、为期数天的自主任务、调试 Agent。

15. 约束满足循环

持续运行直到所有约束得到满足。

text

1while not all_constraints_satisfied(output):
2    output = improve(output, unsatisfied_constraints)
3
4constraints = [
5    budget_under_limit,
6    quality_above_threshold,
7    latency_under_200ms,
8    tone_matches_brand,
9    no_hallucinations
10]

在生产系统中非常常见。

输出直到每一条业务规则通过才算完成。

类别 4 — 探索循环（通过尝试多条路径找到最佳答案）

16. 分支探索循环

不要只走一条路。

同时探索多条路。

text

1paths = [
2    generate(approach="conservative"),
3    generate(approach="aggressive"),
4    generate(approach="creative")
5]
6
7scores = [evaluate(p) for p in paths]
8best = paths[scores.index(max(scores))]

比较结果。选择最佳分支。丢弃其余。

用于：内容变体、架构决策、调试多个假设、A/B 生成。

17. 树搜索循环

分支探索只深入一层。

树搜索可以深入任意层。

扩展最有希望的节点。剪除最弱的节点。持续探索直到找到解决方案。

text

1root → [A, B, C]
2A → [A1, A2]   # A 看起来有希望，展开它
3B → prune      # B 较弱，停在这里
4A1 → [A1a, A1b]
5A1a → solution ✓

用于：复杂推理链、多步规划、代码调试、研究综合。

计算成本高，但能解决单次调用无法找到的方案。

18. 辩论循环

两个 Agent。一个主题。相反的立场。

Agent A 为答案辩护。Agent B 反对答案。

每一轮都挑战假设、要求证据、暴露薄弱逻辑。

最终答案通过分歧产生。

而不是通过一致。

对抗压力能发现自信的单 Agent 答案所遗漏的东西。

用于：投资决策、战略规划、风险评估、研究批评。

类别 5 — 系统优化循环（循环改进循环）

19. 提示词优化循环

大多数工程师写一次提示词就再也不碰了。

提示词优化循环改变了这一点。

系统：

→ 在测试集上运行提示词

→ 对每个输出评分

→ 找出提示词失败的地方

→ 重写提示词以修复失败 → 重新运行并重新评分

提示词自动变得更好。

无需人工干预。

text

1current_prompt = "Summarize this document."
2
3for iteration in range(max_iterations):
4    outputs = [run(current_prompt, doc) for doc in test_set]
5    scores = [evaluate(o) for o in outputs]
6    avg_score = mean(scores)
7
8    if avg_score >= target:
9        break
10
11    failures = [o for o, s in zip(outputs, scores) if s < threshold]
12    current_prompt = improve_prompt(current_prompt, failures)
13    # 提示词根据失败的地方自动重写自己

用于：生产流水线、自动内容系统、分类任务。

生产级 AI 中最好的提示词并非由人写出。

它们是进化出来的。

20. 工作流优化循环

这才是真正有趣的部分。

循环改进循环。

系统测量自身性能：

→ 延迟：每一步耗时多少？

→ 成本：每次调用用了多少 token？

→ 质量：每个阶段的输出评分是多少？

然后修改自身工作流。

太慢了？将两步并行化。太贵了？在质量可以保持的地方，用更小的模型替换 GPT-4 调用。质量下降？在最终输出前增加一个批评者。

text

1metrics = measure_workflow(outputs, latency, cost)
2
3if metrics.latency > target_latency:
4    workflow = parallelize(slow_steps)
5
6if metrics.cost > budget:
7    workflow = replace_with_cheaper_model(high_cost_steps)
8
9if metrics.quality < threshold:
10    workflow = add_critic_before(final_output_step)

这才是真正自我改进系统的起点。

不仅仅是输出改进。

而是系统重新设计自己。

所有 20 种模式背后的模式

上面每一个循环都共享一个结构：

行动 → 观察 → 评估 → 调整

这就是全部配方。

第一次尝试的输出绝不是最终答案。

输出只是一个起点。

循环才是将起点变成生产级作品的关键。

完整地图

类别 1 — 质量循环 （让输出在离开前变得更好）

→ 1. 生成 → 批判 → 重写

→ 2. 评分重试

→ 3. 多批评者

→ 4. 对抗式批评

→ 5. 评审团

类别 2 — 记忆循环 （从发生过的事情中学习）

→ 6. 反思

→ 7. 记忆更新

→ 8. 错误库

→ 9. 成功模式

→ 10. 记忆压缩

类别 3 — 规划循环 （当现实变化时调整）

→ 11. 规划 → 执行 → 重新规划

→ 12. 动态工作流

→ 13. 目标分解

→ 14. 进度评估

→ 15. 约束满足

类别 4 — 探索循环 （通过尝试多条路径找到最佳答案）

→ 16. 分支探索

→ 17. 树搜索

→ 18. 辩论

类别 5 — 系统优化循环 （循环改进循环）

→ 19. 提示词优化

→ 20. 工作流优化

大多数工程师认为 Agent 是未来。

Agent 只是工人。

循环才是让工人进步的关键。

当下 AI 领域最大的转变不是更好的模型。

而是从：

提示 → 响应

转向：

生成 → 评估 → 学习 → 改进

掌握循环设计的团队，构建的将不是更好的提示词。

而是那些在部署后每天都能自我改进的系统。

无需任何人干预。

如果这篇文章对你有帮助：

→ 转发分享给你认识的每一位 AI 工程师

→ 关注 @sairahul1 获取更多此类模式

→ 收藏本文——选一个循环，本周就实现它

我写关于 AI、产品构建以及无需你操心就能运转的系统的文章。

AI 工程师应掌握的 20 个循环设计模式

Agent 与循环

类别 1 — 质量改进循环（让输出在离开系统前变得更好）

1. 生成 → 批判 → 重写

2. 评分重试循环

3. 多批评者循环

4. 对抗式批评循环

5. 评审团循环

类别 2 — 记忆循环（从发生过的事情中学习，让下一次更聪明）

6. 反思循环

7. 记忆更新循环

8. 错误库循环

9. 成功模式循环

10. 记忆压缩循环

类别 3 — 规划循环（当现实变化时调整计划）

11. 规划 → 执行 → 重新规划

12. 动态工作流循环

13. 目标分解循环

14. 进度评估循环

15. 约束满足循环

类别 4 — 探索循环（通过尝试多条路径找到最佳答案）

16. 分支探索循环

17. 树搜索循环

18. 辩论循环

类别 5 — 系统优化循环（循环改进循环）

19. 提示词优化循环

20. 工作流优化循环

所有 20 种模式背后的模式

完整地图

大多数工程师认为 Agent 是未来。

如果这篇文章对你有帮助：

使用 YouMind 创作爆款文章

近期爆款文章

50 种没人承认但确实有效的“有毒”行为

Anthropic 工程师是如何为 Fable 5 编写提示词的

比赛回顾：日本 1-2 巴西，M. Sinan Pala 笔下的“阴与阳”

Claude Code 终极防封指南（2026 年 7 月）

使用 NotebookLM 一年后，我发现的真实使用手册

隆重介绍 OpenWiki：一款用于代码库文档的开源 Agent

AI 工程师应掌握的 20 个循环设计模式

Agent 与循环

类别 1 — 质量改进循环 （让输出在离开系统前变得更好）

1. 生成 → 批判 → 重写

2. 评分重试循环

3. 多批评者循环

4. 对抗式批评循环

5. 评审团循环

类别 2 — 记忆循环 （从发生过的事情中学习，让下一次更聪明）

6. 反思循环

7. 记忆更新循环

8. 错误库循环

9. 成功模式循环

10. 记忆压缩循环

类别 3 — 规划循环 （当现实变化时调整计划）

11. 规划 → 执行 → 重新规划

12. 动态工作流循环

13. 目标分解循环

14. 进度评估循环

15. 约束满足循环

类别 4 — 探索循环 （通过尝试多条路径找到最佳答案）

16. 分支探索循环

17. 树搜索循环

18. 辩论循环

类别 5 — 系统优化循环 （循环改进循环）

19. 提示词优化循环

20. 工作流优化循环

所有 20 种模式背后的模式

完整地图

大多数工程师认为 Agent 是未来。

如果这篇文章对你有帮助：

使用 YouMind 创作爆款文章

近期爆款文章

50 种没人承认但确实有效的“有毒”行为

Anthropic 工程师是如何为 Fable 5 编写提示词的

比赛回顾：日本 1-2 巴西，M. Sinan Pala 笔下的“阴与阳”

Claude Code 终极防封指南（2026 年 7 月）

使用 NotebookLM 一年后，我发现的真实使用手册

隆重介绍 OpenWiki：一款用于代码库文档的开源 Agent

类别 1 — 质量改进循环（让输出在离开系统前变得更好）

类别 2 — 记忆循环（从发生过的事情中学习，让下一次更聪明）

类别 3 — 规划循环（当现实变化时调整计划）

类别 4 — 探索循环（通过尝试多条路径找到最佳答案）

类别 5 — 系统优化循环（循环改进循环）