
如何构建 2026 年多 Agent 编程技术栈(完整课程)
AI 功能
- 曝光
- 772K
- 点赞
- 760
- 转发
- 108
- 评论
- 55
- 收藏
- 2.6K
TL;DR
本指南演示了如何通过使用 Kimi K2.6 处理大批量编程任务,并结合 Claude 进行复杂推理,从而优化开发工作流,以极低的成本实现顶级开发成果。
正在看 简体中文 译文
每个人都在争论哪个 AI 编码 Agent 最好。
收藏这篇 :)
Claude Code 的粉丝说 Claude 好。Cursor 的粉丝说 Cursor 好。GPT 的粉丝说 GPT 好。每个人都选边站,像信仰一样坚定。
与此同时,那些真正交付最多工作的开发者,并不忠诚于任何一个单一工具。他们同时运行多个 Agent,把每个任务路由到能以最低成本给出最佳输出的那一个。
这话说出来好像显而易见。
但几乎没人这么做。
两周前我自己也没这么做。我当时用 Claude Code 做所有事情:写测试、重构模块、生成样板代码、构建 API,全都通过 Claude。工作质量很棒,我对质量没有任何抱怨。
问题是账单。
当你每天、每时每刻都在运行 Agent 编码任务时,Token 成本会迅速累积。按每百万输入 Token 5 美元、每百万输出 Token 25 美元计算,“全天候”的成本高到让你开始限制 Agent 的使用量。这完全违背了初衷。
所以我开始寻找一个开源替代方案。不是为了取代 Claude。而是为了处理那 80% 不需要 Claude 级别推理、并且我在为实际需求过度付费的任务。
那次搜索让我找到了一个意想不到的东西。
我发现了什么(以及为什么我差点忽略它)
老实说,当有人第一次让我看 Kimi K2.6 时,我差点就忽略了。一个来自北京 Moonshot AI 的编码模型?我表示怀疑。
然后我看了基准测试。
Kimi K2.6 在 SWE-Bench Verified 上得了 80.2%。Claude Opus 4.6 得了 80.8%。GPT-5.2 得了 80.0%。
这些数字实际上是一样的。我们谈论的是相差不到一个百分点的模型,而它们的价格相差 7 倍。
然后我看了 OpenRouter 的编程排行榜。Kimi K2.6 排在第一。
然后我看了定价。每百万输入 Token 0.80 美元。每百万输出 Token 3.60 美元。
我不再怀疑了。
该模型附带一个终端优先的编码 Agent,叫做 Kimi Code。开源。Apache 2.0 许可证。完整源代码在 GitHub 上。
你可以检查它、修改它、自行托管。整个东西像 Claude Code 一样从你的终端运行。
我安装了它,指向一个真实项目,然后开始测试。
我实际是如何设置的
安装过程简单得几乎让人恼火。
你需要 Python 3.10+,基本上就这些。一个命令:
bash
1pip install kimi-code
然后启动:
bash
1kimi
你就进去了。第一次它会要求你运行 /login 进行身份验证。之后,每次会话都会立即启动。
我还从市场安装了 VS Code 扩展,这样我就可以在编辑器里使用它。它原生支持 Zed,并通过 ACP 与 Cursor 和 JetBrains 集成。所以无论你的设置是什么,它都能适配。
总设置时间:不到五分钟。
两周测试
我给了它一个真正的测试。不是玩具项目。不是“给我写一个待办事项应用”。我把我实际工作流程中的真实任务喂给了它。
以下是我让它做的事情以及结果。
测试 1:从头构建一个完整的 REST API
数据库模型、身份验证、CRUD 端点、错误处理和测试。这种任务通常需要 Claude 花两到三个小时的 Agent 时间。
Kimi Code 首先规划了整个结构。然后逐个文件执行,参考自己之前的决策。没有幻觉导入。没有损坏的依赖。没有文件相互矛盾。
K2.6 有一个思考模式,在写代码之前先推理问题。这个规划步骤是关键。它不是直接开始生成。它先架构。结果是一个可用的 API,只需要微调,而不是大清理。
测试 2:跨 12 个文件重构一个模块
这是大多数编码 Agent 完全崩溃的地方。它们在第三个文件中改了某些东西,却破坏了第七个文件,或者忘记了自己已经修改了什么。
K2.6 全程保持连贯。与我之前习惯看到的相比,它的平均步骤数减少了大约 35%。不必要的步骤更少意味着消耗的 Token 更少,这意味着成本节省进一步叠加。
测试 3:为现有代码库生成测试套件
苦力活。正是那种我用 Claude 过度付费的任务。Kimi Code 干净利落地处理了它。不花哨,不革命性。只是稳定、一致的输出,成本却低得多。
两周后的结论: 对于我日常编码任务的大约 85-90%,输出质量与之前相比几乎没有区别。另外 10-15% 的深度复杂架构推理任务,我仍然路由到 Claude。
在我大部分工作上减少 85% 的成本,这不是渐进式的。它改变了我的工作方式。
那个为我节省数小时的 MCP 技巧
这部分让过渡几乎毫无摩擦。
Kimi Code 开箱即用地支持 Model Context Protocol。完全 MCP 兼容。而且配置格式与你已经在使用的兼容。
所以如果你有来自 Claude Code 或其他工具的现有 MCP 配置,你可以用一个命令迁移过来:
bash
1kimi --mcp-config-file your-existing-config.json
你所有的 MCP 服务器、所有的工具连接,立即全部转移。
或者单独添加服务器:
bash
1kimi mcp add --transport http context7 <https://mcp.context7.com/mcp>
检查已连接的内容:
bash
1kimi mcp list
测试连接:
bash
1kimi mcp test context7
你的整个工具生态系统随你移动。 那一刻我意识到这不是一个孤立的实验。它直接插入我已经构建的一切。
我每天使用的工作流命令
一旦进入 Agent,这些是日常真正重要的命令和功能:
Ctrl-X - 切换 Shell 模式。在不离开 Agent 的情况下运行任何终端命令。无需切换窗口。无需丢失上下文。这听起来很小,但改变生活。
/sessions - 查看和切换会话。真正的会话管理,而不是“每次都重新开始”。
--continue - 从上次离开的地方精确恢复。
/compact - 这是被低估的一个。当你的上下文窗口快满时,/compact 让 Agent 总结对话历史,同时保留关键信息。释放空间,让你无需开始新会话就能继续工作。状态栏中有一个上下文使用指示器,让你知道何时使用它。
kimi --yolo - 自动批准所有文件修改。只有当你信任 Agent 正在做的事情并且想要最大速度时才使用。在不熟悉的代码库上很危险。在你自己的项目上效果惊人。
kimi acp - 以 ACP 模式启动,用于 IDE 集成。如果你使用 Zed 或 JetBrains,这就是连接方式。
那个超出我预期的功能
我必须谈谈 Agent Swarm,因为这是大多数开发者目前使用的工具中没有真正等价物的功能。
Agent Swarm 让 K2.6 在复杂任务上协调多达 100 个子 Agent 并行工作。不是顺序执行。是并行执行。
让我目瞪口呆的用例:有人喂给它 40 篇学术 PDF,得到了一篇 10 万字的文献综述,附带完整引用的数据集。在一个会话中完成。
其他人正在运行的其他真实例子:
- 100 个职位描述处理成 100 份量身定制的简历
- 一篇天体物理学论文变成一份 40 页的报告,包含 2 万行数据集和 14 张出版级图表
- 一个提示生成 10 张小报风格的杂志封面,带有真实历史标题
这是批处理,其水平通常需要自定义脚本和数小时的手动编排。而现在只是一个提示。
Agent Swarm 目前通过 Web 界面运行,CLI 支持即将推出。如果你有任何涉及处理大批量文件、文档或数据的工作流,仅此一项就值得你花时间。
没人谈论的部分:设计品味
我本来没打算测试前端能力。我专注于后端和工具。但我的信息流中有人发布了一个用 K2.6 构建的作品集网站,我简直不敢相信那是 AI 生成的。
所以我通过 Kimi 的 Agent 界面亲自测试了它。
K2.6 编写 GLSL 着色器、WebGL、Three.js。它理解设计词汇。你说“粗野主义”或“液态金属”或“电影感”,输出实际上匹配这些美学。不是那种通用的 AI 垃圾方式。而是看起来像人类设计师构建的。
它生成的 Web 应用自动带有内置数据库和身份验证。你得到的不是一个静态页面。而是一个带有真实后端管道的功能性应用。
我让它构建一个带有着色器英雄动画的作品集网站。一次生成。这种输出在设计工作室要花费数千美元。
这一刻我不再把 K2.6 看作“只是一个编码模型”。它是一个全栈创意工具。
我目前的实际技术栈
以下是我运行这个设置两周后的工作流程:
对于高容量编码工作(重构、测试、样板代码、API、文档、文件处理)——我路由到 Kimi Code。这大约是我日常工作的 85%。输出质量符合我的需求。成本是我之前支付的一小部分。
对于复杂架构推理(深度多 Agent 编排、需要最大可靠性的极长 Agent 循环、新颖系统设计)——我路由到 Claude。这是另外 15%。Claude 在最难的推理任务上仍然有优势,当需要时我毫不介意付费。
对于批处理(任何涉及大量文件、文档或并行执行的任务)——Agent Swarm。我的技术栈中没有其他东西能做到这一点。
总体结果: 我的每周 API 支出下降了大约 85%。我的输出量增加了,因为我停止限制 Agent 的使用。我以更低的成本更快地交付更多。
这不是关于找到“最好”的工具。而是关于构建一个技术栈,让每个任务以正确的成本在正确的工具上运行。
诚实评估
我会给你直白的版本,因为我认为你值得拥有。
K2.6 明显胜出的地方:
- 成本。比 Opus 4.7 便宜 7 倍。比 GLM-5.1 便宜近 50%。在相同性能水平上。这是无可争议的。
- 开源。完整权重在 Hugging Face 上。Apache 2.0。如果你想可以自行托管。如果需要可以修改。没有供应商锁定。
- 批处理。Agent Swarm 在 Claude 或 GPT 生态系统中目前没有真正的等价物。
- 前端设计。生成的 Web 应用的美学质量确实是同类最佳。
- 效率。与 K2.5 相比,达到相同结果的步骤减少了 35%。步骤更少意味着 Token 更少,意味着成本更低。
Claude 仍然胜出的地方:
- 最复杂的英文指令遵循。当任务需要在数百个 Agent 步骤中完美遵守极其详细的约束时,Claude 仍然更可靠。
- 生态系统成熟度。Anthropic 的开发者生态系统在西方更成熟。
- 上下文窗口。Claude 提供高达 100 万 Token。K2.6 提供 26.2 万 Token。对于大多数任务,26.2 万 Token 绰绰有余。对于大规模代码库分析,Claude 有优势。
真正难分伯仲的地方:
- SWE-Bench 和标准编码基准测试。数字相差不到一个百分点。在这里宣布胜者是不诚实的。
真正的问题
2026 年的 AI 编码 Agent 市场不是关于忠诚。而是关于杠杆。
你每花一小时通过高价 API 运行常规编码任务,而一个开源模型能提供相同输出,你就是在烧钱。
今年会脱颖而出的开发者,是那些构建多 Agent 技术栈的人。以合适的价格为合适的任务使用合适的工具。而不是那些选边站队、拒绝看其他任何东西的人。
两周前,我在 85% 的编码工作上花费了比所需多 7 倍的钱。
现在我不再这样了。
工具就在那里。基准测试是公开的。设置只需五分钟。
唯一的问题是,你是要自己测试,还是等其他人先测试。
大多数读到这篇文章的人会继续为每个任务支付全价。而那些构建真正技术栈的人,将在 30 天内把他们远远甩在后面。
我分解每一个主要的 AI 工具和工作流程,这样你就不必独自摸索了。
关注我 @eng_khairallah1 获取更多开发者工具、工作流程和技巧。没有废话。只有有效的东西。
希望这对你有用,Khairallah ❤️


