大部分 AI 工程师知道如何构建一个 Agent。
但很少有人知道如何构建一个能在第一次尝试后不断改进的系统。
这个差距价值六位数。
区别在于:
Agent 是一个工人。
循环是让工人进步的方法。
目前生产环境中能力最强的 AI 系统,靠的不是单次模型调用。
它们靠的是循环。
生成 → 评估 → 学习 → 改进。
一次又一次。
直到输出真正达到要求。
以下是生产级 AI 系统中反复出现的 20 种循环设计模式。
收藏起来。你会用到这些模式。
Agent 与循环
旧方式:提示 → 响应 → 完成。
新方式:生成 → 批判 → 重写 → 评分 → 重试 → 记忆 → 改进。
一种是只做一次工作的工厂工人。
另一种是每次轮班都研究每一个错误、重写操作手册、提升 3% 的工厂工人。
现在正在交付生产级 AI 的团队并不是在写更好的提示词。
他们是在构建更好的循环。

类别 1 — 质量改进循环 (让输出在离开系统前变得更好)
1. 生成 → 批判 → 重写
AI 工程中最重要的循环。
生成输出。批评者审阅。生成者根据反馈重写。重复直到达到质量标准。
不是一个模型。是两个角色。一条流水线。
1[生成者] → 草稿2[批评者] → "第三段模糊不清。缺少证据。语气不对。"3[生成者] → 根据批评重写4[批评者] → "好多了,但结论仍然薄弱。"5[生成者] → 最终重写
用于:写作、代码审查、报告、策略文档、销售邮件。
洞见:负责生成的模型并不是自己输出的最好评委。
独立的批评者每次都能发现生成者遗漏的问题。

2. 评分重试循环
生成。评分。低于阈值则重试。
简单。强大。被低估。
score = evaluate(output)
1score = evaluate(output)23while score < threshold:4 output = generate(prompt)5 score = evaluate(output)6 attempts += 17 if attempts > max_retries:8 return best_so_far
最适合质量可衡量的场景——提取准确率、格式合规、事实准确性、线索评分。
生成者不知道自己在被评分。
评估者知道。
这种分离就是模式本身。
3. 多批评者循环
一个批评者有盲点。
用四个。
→ 正确性批评者:事实是否准确?
→ 风格批评者:表达是否清晰、文笔是否优美?
→ 安全批评者:内容是否合适、安全?
→ 领域批评者:是否符合专业标准?
各自独立评估。
最终输出必须满足全部四个批评者才能放出。
用于:医疗 AI、法律文档审查、财务分析、受监管内容。

4. 对抗式批评循环
批评者的唯一任务就是拆穿答案。
不是改进它。而是拆穿它。
对抗式批评者会问:
→ 这里有哪些假设不成立?→ 缺少哪些证据?→ 怀疑论者会怎么说?→ 哪里是看似正确但实际错误的?
生成者随后进行辩护或重写。
最棒的答案才能经受住攻击。
用于:研究综合、投资论点审查、战略规划、风险分析。
5. 评审团循环
一个评委给出的分数带有噪声。
五个评委能平均掉噪声。
将同一输出送入多个评估器。
汇总分数。
只有获得高度共识的输出才能进入下一步。
用于:单模型评估不可靠、风险高、边缘情况很重要的场景。

类别 2 — 记忆循环 (从发生过的事情中学习,让下一次更聪明)
6. 反思循环
目前最重要、能自我改进的模式。
Agent 失败。Agent 分析失败原因。Agent 存储教训。Agent 带着教训重试。
每次迭代都比上一次更聪明。
1尝试 1:失败2反思:"我假设了 X,但 X 是错的。下次先验证 X。"3尝试 2:融入教训 → 部分成功4反思:"好多了。但跳过了 Y。增加 Y 检查。"5尝试 3:成功
这就是"失败一次"的系统与"只失败一次"的系统的区别。

7. 记忆更新循环
每次任务完成后,存储三件事:
→ 做了什么决定 → 结果是什么 → 下次会怎么做
后续运行继承这些知识。
第 6 个月的系统已经不再是第 1 个月的系统。
它读过了自己 6 个月的历史。
8. 错误库循环
存储每一个失败。
错误答案。糟糕输出。执行失败。边缘情况。
在处理新任务之前:
先搜索错误库。
如果存在类似失败 → 在开始之前就应用已知修复。
系统不会再犯同样的错误。
生产级 AI 中最被低估的模式。
9. 成功模式循环
大多数工程师只存储失败。
也要存储成功。
当任务进展顺利时:
→ 保存方法 → 保存上下文 → 保存成功的关键
面对类似任务时,检索成功的模式。
从胜利中学习,而不仅仅是从错误中学习。
10. 记忆压缩循环
记忆会无限增长。
无限记忆等于不可用记忆。
当积累到 N 条后:
进行压缩。
许多具体记忆 → 少数更高级别的抽象。
1压缩前:2"任务 A 因为 X 失败"3"任务 B 因为 X 失败"4"任务 C 因为 X 失败"56压缩后:7"模式:X 导致失败。始终先检查 X。"
上下文保持可控。模式保持可访问。系统保持高效。

类别 3 — 规划循环 (当现实变化时调整计划)
11. 规划 → 执行 → 重新规划
AI Agent 设计中最常见的错误:
把计划当作固定的。
计划在接触现实时就会崩溃。
模式:
创建计划 → 执行步骤 → 观察结果 → 更新计划 → 继续
不是瀑布式。
而是螺旋式。
每绕一圈,方法就更精确。
用于:环境变化、任务有依赖关系、长期目标。

12. 动态工作流循环
大多数流水线是固定的。
步骤 1 → 步骤 2 → 步骤 3。始终如此。
动态工作流根据结果而变化。
如果输出 A → 运行分支 X 如果输出 B → 运行分支 Y 如果输出 C → 跳到步骤 5
流水线在运行时决定自己的形状。
用于:多文档研究、客服路由、自适应内容流水线。
13. 目标分解循环
输入大目标。
系统将其分解为子目标。
每个子目标分解为任务。
每个任务分解为步骤。
一直分解到每个单元小到可以一次调用完成。
1目标:"撰写一份全面的竞争分析"2↓3子目标 1:"确定前 5 名竞争对手"4子目标 2:"分析每个竞争对手的产品"5子目标 3:"比较定价模式"6子目标 4:"找出差距"7↓8每个子目标 → 任务 → 单独的模型调用
循环不断分解,直到系统能够行动。
14. 进度评估循环
每 N 步:停下来问一问。
"我们真的在接近目标吗?"
如果是:继续当前策略。如果否:改变策略、工具或计划。
系统监控自己的进度。
而不是盲目执行。
用于:长时间运行的研究 Agent、为期数天的自主任务、调试 Agent。
15. 约束满足循环
持续运行直到所有约束得到满足。
1while not all_constraints_satisfied(output):2 output = improve(output, unsatisfied_constraints)34constraints = [5 budget_under_limit,6 quality_above_threshold,7 latency_under_200ms,8 tone_matches_brand,9 no_hallucinations10]
在生产系统中非常常见。
输出直到每一条业务规则通过才算完成。

类别 4 — 探索循环 (通过尝试多条路径找到最佳答案)
16. 分支探索循环
不要只走一条路。
同时探索多条路。
1paths = [2 generate(approach="conservative"),3 generate(approach="aggressive"),4 generate(approach="creative")5]67scores = [evaluate(p) for p in paths]8best = paths[scores.index(max(scores))]
比较结果。选择最佳分支。丢弃其余。
用于:内容变体、架构决策、调试多个假设、A/B 生成。

17. 树搜索循环
分支探索只深入一层。
树搜索可以深入任意层。
扩展最有希望的节点。剪除最弱的节点。持续探索直到找到解决方案。
1root → [A, B, C]2A → [A1, A2] # A 看起来有希望,展开它3B → prune # B 较弱,停在这里4A1 → [A1a, A1b]5A1a → solution ✓
用于:复杂推理链、多步规划、代码调试、研究综合。
计算成本高,但能解决单次调用无法找到的方案。
18. 辩论循环
两个 Agent。一个主题。相反的立场。
Agent A 为答案辩护。Agent B 反对答案。
每一轮都挑战假设、要求证据、暴露薄弱逻辑。
最终答案通过分歧产生。
而不是通过一致。
对抗压力能发现自信的单 Agent 答案所遗漏的东西。
用于:投资决策、战略规划、风险评估、研究批评。

类别 5 — 系统优化循环 (循环改进循环)
19. 提示词优化循环
大多数工程师写一次提示词就再也不碰了。
提示词优化循环改变了这一点。
系统:
→ 在测试集上运行提示词
→ 对每个输出评分
→ 找出提示词失败的地方
→ 重写提示词以修复失败 → 重新运行并重新评分
提示词自动变得更好。
无需人工干预。
1current_prompt = "Summarize this document."23for iteration in range(max_iterations):4 outputs = [run(current_prompt, doc) for doc in test_set]5 scores = [evaluate(o) for o in outputs]6 avg_score = mean(scores)78 if avg_score >= target:9 break1011 failures = [o for o, s in zip(outputs, scores) if s < threshold]12 current_prompt = improve_prompt(current_prompt, failures)13 # 提示词根据失败的地方自动重写自己
用于:生产流水线、自动内容系统、分类任务。
生产级 AI 中最好的提示词并非由人写出。
它们是进化出来的。

20. 工作流优化循环
这才是真正有趣的部分。
循环改进循环。
系统测量自身性能:
→ 延迟:每一步耗时多少?
→ 成本:每次调用用了多少 token?
→ 质量:每个阶段的输出评分是多少?
然后修改自身工作流。
太慢了?将两步并行化。太贵了?在质量可以保持的地方,用更小的模型替换 GPT-4 调用。质量下降?在最终输出前增加一个批评者。
1metrics = measure_workflow(outputs, latency, cost)23if metrics.latency > target_latency:4 workflow = parallelize(slow_steps)56if metrics.cost > budget:7 workflow = replace_with_cheaper_model(high_cost_steps)89if metrics.quality < threshold:10 workflow = add_critic_before(final_output_step)
这才是真正自我改进系统的起点。
不仅仅是输出改进。
而是系统重新设计自己。

所有 20 种模式背后的模式
上面每一个循环都共享一个结构:
行动 → 观察 → 评估 → 调整
这就是全部配方。
第一次尝试的输出绝不是最终答案。
输出只是一个起点。
循环才是将起点变成生产级作品的关键。

完整地图
类别 1 — 质量循环 (让输出在离开前变得更好)
→ 1. 生成 → 批判 → 重写
→ 2. 评分重试
→ 3. 多批评者
→ 4. 对抗式批评
→ 5. 评审团
类别 2 — 记忆循环 (从发生过的事情中学习)
→ 6. 反思
→ 7. 记忆更新
→ 8. 错误库
→ 9. 成功模式
→ 10. 记忆压缩
类别 3 — 规划循环 (当现实变化时调整)
→ 11. 规划 → 执行 → 重新规划
→ 12. 动态工作流
→ 13. 目标分解
→ 14. 进度评估
→ 15. 约束满足
类别 4 — 探索循环 (通过尝试多条路径找到最佳答案)
→ 16. 分支探索
→ 17. 树搜索
→ 18. 辩论
类别 5 — 系统优化循环 (循环改进循环)
→ 19. 提示词优化
→ 20. 工作流优化
大多数工程师认为 Agent 是未来。
Agent 只是工人。
循环才是让工人进步的关键。
当下 AI 领域最大的转变不是更好的模型。
而是从:
提示 → 响应
转向:
生成 → 评估 → 学习 → 改进
掌握循环设计的团队,构建的将不是更好的提示词。
而是那些在部署后每天都能自我改进的系统。
无需任何人干预。
如果这篇文章对你有帮助:
→ 转发分享给你认识的每一位 AI 工程师
→ 关注 @sairahul1 获取更多此类模式
→ 收藏本文——选一个循环,本周就实现它
我写关于 AI、产品构建以及无需你操心就能运转的系统的文章。





