如何成为一名 Hermes Agent 操作员

@shannholmberg
英语2个月前 · 2026年5月15日
830K
1.7K
164
27
5.5K

TL;DR

本指南详细介绍了 Nous Research 开发的 Hermes Agent 的架构与设置,解释了如何部署具备持久化记忆的自主 AI Agent,以实现端到端的营销自动化。

学习如何操作并掌握 Hermes Agent。搭建 Agent 控制室模板,配置专业 Agent,并在单台 VPS 上从单个 Agent 发展成一个完整的营销公司。

大多数 AI 工具只回答问题。Hermes Agent 能端到端地运行你的工作流程。

它操控你的浏览器、执行终端命令、安排定时任务、监控你的收件箱、起草工作内容,并将结果发布到你常去的地方:Telegram、Discord、Slack,甚至是你正在参与的邮件线程。

由 @NousResearch 构建,开源且拥有 150,000 个 GitHub Star。目前在 OpenRouter 上全球 token 使用量排名第一。

过去几周里,我的整个营销运营都基于这个框架。而你现在要读的这篇文章,正是如果我从今天开始,会如何搭建它的指南。

Shann³ - inline image

你将从本文获得什么

  • Hermes Agent 是什么,以及为什么营销人员(不仅仅是开发者)应该关注它
  • 对读者友好的架构解读:大脑、个性、技能集,以及它们如何共存于一个文件夹中
  • 我个人在 Hermes 上运行的用例,以及我发布的四篇相关文章
  • 四部分心理模型(你、控制室、Agent、可选的任务总线)以及四个设置层级,从“笔记本上的一个 Agent”到“你通过手机控制的、运行在 VPS 上的全自动 Agent 团队”
  • 我用于将营销工作流程从混乱想法转变为自主部署的原型 → 生产方法论
  • 我一开始就希望拥有的资源:文档、社区地图、值得关注的人、正在举办的线下活动
  • 诚实的权衡以及可能出问题的地方

在这篇文章中,我不会向你推销任何东西。Hermes 是开源的,Nous Portal 有免费套餐,大部分社区生态系统也是免费的。Fork 它,修改它,让它成为你的。

Hermes Agent 是什么

简而言之:一个运行时间越长,能力越强的自主 Agent。

更详细地说:Hermes 是一个由 Nous Research 构建的框架,它将模型转化为一个持久运行的操控者。它拥有跨会话持久化的独立记忆。它会在工作中自行编写技能。它预装了 123 个技能(包括 GitHub workflows、Obsidian、Google Workspace、Linear、Notion、Typefully、Perplexity、Deep Research,以及 100 多个其他技能)。它可以放在任何地方:你的笔记本、Docker 容器、VPS、Serverless 运行时。你可以通过 20 多种方式与它对话:Telegram、Discord、Slack、电子邮件、语音模式,或者直接用终端。

如果你用过 Claude Code 或 OpenClaw,那么 Hermes 有着相似的形态,但哲学不同。

Hermes 是 Rails。带有默认配置、开箱即用、第一天就能高效工作,Agent 为你做更多思考。

OpenClaw 是 Linux。提供基础组件、保证确定性、显式控制,Agent 精确执行你的指令,不多也不少。

两者都很有价值。我使用 Hermes 是因为它的默认配置能产生复利。我用 Hermes 启动的每一个项目,在我写一行配置之前,Agent 就已经知道如何做 100 多件事。这种先发优势对我来说很值得。我还注意到 Hermes 几乎没有网关断开或出错的问题。

证据就在 Nous Research 刚刚公布的数据中:

  • OpenRouter 全球 token 使用量排名第一(在平台上的所有模型和框架中)
  • Hermes 仓库在 GitHub 上获得 150,000 个 Star
  • 在 Agent 自行编写技能之前,已预装 123 个技能
  • 网关中内置 70 多种工具,通过一个订阅即可访问 300 多个模型
  • 6 种部署目标:本地、Docker、SSH、Daytona、Singularity、Modal
  • 20 多种消息平台:Telegram、Discord、Slack、电子邮件、语音

如果你是一位 AI 营销人员,还没有开始运行 Hermes,那么你每周都在错失不断累积的能力。

它是如何工作的(面向读者的简化版)

每个 Hermes Agent 都有三样东西。

大脑。 记忆存储在 ~/.hermes/memories/ 中。两个文件,MEMORY.md 和 USER.md,在会话开始时注入。你的声音规则、品牌笔记、客户语言、上周的修正,所有这些在第一条提示之前就已加载。会话存储在 SQLite 中,跨会话的回忆可通过全文搜索实现。

个性。 soul.md 中存放的是氛围。简洁、讽刺、直率、正式、快速或深思熟虑。你可以启动六个 Agent,给每个不同的灵魂,但底层共享同一个大脑。一个是你的外联专员,带有成交能量。另一个是你的研究员,喜欢长篇大论。另一个是你的助手,保持一切简短。

Shann³ - inline image

技能集

开箱即用的 123 个技能:GitHub PR、Obsidian、Google Workspace、Linear、Notion、Typefully、Perplexity、Deep Research、浏览器控制、网页抓取、视觉、语音、调度。以及闭环学习:当 Agent 工作时,它会沿途编写新技能。你自己的技能库会在那 123 个基础上增长,而你无需编写任何一个。

此外,还有 Agent 可以与之对话的对象:

  • 工具网关:一个订阅,300+ 模型,以及内置的网页抓取和浏览器自动化
  • MCP 集成:任何支持模型上下文协议的外部服务都可以成为你的 Agent 可以使用的工具
  • 20 多种消息平台:Telegram、Discord、Slack、电子邮件,以及 CLI 本身
Shann³ - inline image

以及 Agent 可以运行的地方:

  • 你的笔记本(本地)
  • Docker 容器(隔离、可移植,这就是我运行的方式)
  • 通过 SSH 连接 VPS(即使你的笔记本关闭也能运行)
  • Daytona、Singularity、Modal(如果你不想管理基础设施,可以选择 Serverless)

闭环学习是它与智能聊天机器人不同的关键。Agent 观察自己的工作,在学习你工作形态的过程中编写新技能,定期优化记忆,并利用全文搜索和 LLM 摘要的组合来跨会话回忆过去的上下文。你下周不必重新教它。

我告诉新手 Hermes 的规则是:第一天不要尝试编写自己的技能。运行真实工作,让 Agent 观察,让框架来编写技能。通过工作来构建自定义技能库比编写提示要快得多。

我在 Hermes 上运行什么

我是一名 AI 营销人员,不是程序员。我在 Hermes 上运行的大部分内容是营销基础设施,偶尔也会有一些内部工具。以下是实际清单:

  • 一个处理商务和个人事务的个人助手,位于 Telegram 中,每天早上标记四封值得阅读的邮件,安排我的提醒,总结我错过的会议
  • 一个营销工作流程原型设计台,我在其中测试新流程(吸引物、广告创意审查、内容冲刺),在推广前运行 2-3 次真实工作
  • 专门的营销 Agent:SEO、外联 / 商务拓展、设计审查、内容写作,每个都有自己的灵魂和范围
  • 一个公司大脑,监控 Slack、聊天、邮件、转录、语音备忘录,并使所有这些内容可查询。当我问“我们上个月对那个客户关于定价说了什么”时,3 秒内得到答案,而不是花 30 分钟挖掘
  • 一个 SEO Agent,在单个 Docker 容器中运行从关键词种子到发布文章的完整流程,21 个步骤,直至最终审核前无需人工介入
  • 一个内容分发 Agent,将一篇长文(例如本文)拆解成适合 LinkedIn、X、Threads 的片段,并带有针对平台的内容钩子
  • 一个编排 Agent,本身不产出工作,而是根据我的请求将任务路由给相应的专业 Agent

我发布了一个总结它的蓝图:

特别是 SEO Agent 值得深入探讨,因为它是我公开发布过的,并且与本文其余部分的架构映射得最清晰。五层结构,全部位于一个 Docker 容器内,21 个步骤,从关键词种子到发布文章。

在终端中,这 21 个步骤看起来像这样:

该流程之上的各层:

  1. 顶层是公司大脑:愿景、品牌、受众、产品。每个 Agent 都从这读取
  2. 编排 Hermes Agent:接收主题或关键词种子,并将其路由给 SEO Agent
  3. SEO 大脑:排名策略、语音规则、内容格式、视觉风格指南、每种格式的成功标准。所有 SEO 相关的上下文都存放在这里
  4. SEO Agent 内部的三个子 Agent,每个负责一个阶段:
  5. 研究与构思:关键词种子、SERP 快照、竞争对手提取、意图与格式分析、内容与视觉差距、内部与外部验证
  6. 生产:角度与定位简报、视觉策略简报、大纲、草稿、图像生成、流程图生成、视觉与文章质量审核
  7. 分发:发布准备、Schema、内部链接、联合发布、分析、监控
  8. 一个 Docker 容器包含所有三个子 Agent。它们共享环境、记忆和工具。子配置文件根据阶段切换上下文。一个进程,一个文件系统,一套凭证。

为什么用一个容器而不是三个:SEO 工作是顺序的。研究为简报提供输入,简报为生产提供输入,生产为分发提供输入。每一步都需要记忆上游决策的内容。拆成三个容器意味着要在边界之间传递状态,这代价高昂且会打断链条。

公司中的每个其他专门 Agent 都运行在相同的模板上。克隆 SEO Agent 模板,替换大脑(SEO 大脑 → 外联大脑,或 → 设计大脑,或 → 支持大脑),你就得到了一个具有相同五层结构的新功能 Agent。

这些层级不是装饰。它们是 Agent 在任务专业化时不丢失上下文的原因。公司大脑保持稳定,而工作者迭代。大脑层级使工作者变得可替换。

我最近还在我们 @EspressioAI 位于里斯本的办公室为 Nous Research 举办了一场 Hermes Agent 晚活动。@yeahfortommy 来自 Nous 主持了问答,Simao 来自 noticed.so 展示了一个带有自动研究的 Agent 框架,而我则介绍了我们如何在 Espressio 使用 Hermes 实现增长。

如果你在里斯本并且想来参加下一次活动,我会在确定时间后发布通知。

从单个 Agent 到完整舰队

在介绍层级之前,先说说心理模型。

该设置包含四个部分:

  • 你是操作员。 你可以直接访问系统的每个部分。
  • Agent 控制室 是侧边控制平面。它不是你可以通过聊天交互的 Agent。它是一个位于 /root/vps-agents 的文件夹,用于记录和管理整个舰队。当你管理系统时,你可以打开它、编辑它、检查它,或者要求 Claude、Codex 或 Hermes 使用它。
  • Hermes Agent 是工作者。有些是专家(SEO、开发、CMO、运营)。其中一个可以选择作为编排 Agent。
  • Agent 任务总线 是一个可选的交接台,位于编排 Agent 和专家 Agent 之间。只有当编排 Agent 投入使用时才需要它。

整体看起来像这样:

存储分离比人们想象的更重要:

控制室包含了以下问题的答案:存在哪些 Agent、它们做什么、使用哪些端口、引用哪些凭证、每个 Agent 能做什么不能做什么,以及如何重启、调试或重建它们中的任何一个。实时运行时包含实际的工作内容。

控制室是定义系统的大脑。实时运行时是运行系统的身体。你可以从大脑重建身体。但无法从身体重建大脑。

在控制室内部:

以及每个 Agent 运行时内部,位于 /srv/<agent-name>/data/:

你交互的三种方式

  • 控制路径 是元层。用于添加 Agent、审查文档、检查端口、轮换密钥、调试设置。
  • 直接路径 是最快的。当你已经知道哪个 Agent 负责该工作时使用。
  • 编排路径 是合成器。当你想要一个统一的前端来跨多个专家路由和组合工作时使用。

第一级:单个 Agent

你有一个 Hermes Agent。仅此而已。控制室仍然可以存在(推荐),但只记录这一个 Agent。

最适合:初始设置、个人 Hermes、根安装文档、简单的 Docker 迁移。

一个单个 Agent,深度使用,拥有你调整过的个性和已经开始建立的记忆。用你想要的语气填写 SOUL.md,用关于你业务的稳定事实填写 MEMORY.md,用关于你的稳定事实填写 USER.md。连接到 Telegram 或 Discord,让它存在于你所在的地方。开始在真实任务上使用它。让它接触你的工具。让它沿途编写自己的技能。

MEMORY.md 存放稳定的事实(你的业务是什么、你的客户是谁、你的产品做什么)。USER.md 存放关于你的稳定事实(时区、工作时间、重复项目、首选输出格式)。两者每周都会随着你在真实对话中纠正 Agent 而得到完善。

第二级:直接专家 Agent

你有多个专门的 Agent,但你仍然直接与每个 Agent 对话。还没有编排 Agent。

控制室记录所有 Agent。

最适合:清晰的角色分离、测试哪些 Agent 有用、避免过早编排、保持每个 Agent 的凭证范围。

这里要避免的陷阱是,在证明你的专家有用之前就去追求编排 Agent。启动两三个,直接运行它们,只有当你发现自己想要一个统一的前端时才添加编排 Agent。

什么时候启动一个新 Agent 与继续使用现有 Agent:

不好的模式:一个超级 Agent 将每个凭证和每个记忆层混在一起。你失去了隔离能力,无法干净地撤销访问权,而且 Agent 会对该使用哪个语气感到困惑。

第三级:编排 Agent + 专家

你添加 hermes-orchestrator 作为统一前端。你仍然可以直接与专家对话,但编排 Agent 可以路由工作并合成结果。

Shann³ - inline image

编排 Agent 读取控制室以了解哪些 Agent 存在、每个做什么、任务队列在哪里、哪些需要审批、哪些操作被禁止,以及文档和操作手册在哪里。它不需要问你这些,它会直接读取。

最适合:跨职能工作、委派、总结与合成、多 Agent 工作流程的一个主要界面。

编排 Agent 是你的设置从一群 Agent 变成一个团队的标志。这也是控制室发挥价值的地方,因为编排 Agent 的质量取决于它读取的文档的质量。

从我的笔记本或手机上快速检查舰队状态看起来像这样:

第四级:自动 Agent 团队

与第三级形态相同,但增加了周期性工作流和更强的自动化。每周 SEO 报告由 cron 运行。服务器健康检查每天触发。备份验证无需你要求即可执行。跨 Agent 的业务工作流按计划启动。

最适合:每周 SEO 报告、内容运营、服务器健康检查、备份验证、跨 Agent 业务工作流。

第四级就像是你终端里的一个营销部门。它不需要你开始新的一天。它自己上班,提交报告,自我检查,只在需要品味决策时才 ping 你。

Shann³ - inline image

控制层级

当你提升级别时,记住一个原则。

控制室用于配置、文档、操作手册和治理。它记录哪些 Agent 存在、它们做什么、在哪里运行、引用哪些凭证、每个 Agent 能做什么不能做什么。它是舰队的控制面板,包括编排 Agent 在内。它不是你去完成工作的地方。

至于工作,你直接与 Agent 对话。要么是专家(当你知道哪个 Agent 负责该任务时),要么是编排 Agent(当你想要一个统一的前端来跨专家路由时)。

设置指南:让你的 Agent 指向仓库

现在你理解了架构。以下是搭建方法。

我发布了一个公共模板,它包含了上述的确切结构,以及你的 Agent 设置它所需的技能。

它位于 github.com/shannhk/hermes-agent-control-room。

Shann³ - inline image

你可以手动克隆它,但关键在于你不必这么做。如果你的笔记本上装有 Claude Code 或 Codex,那么在你提供 Hetzner API 密钥后,Agent 就能完成大部分工作。

自动流程:

在十到十五分钟内,你将拥有:

  • 一个安装了正确工具的新 Hetzner VPS
  • 控制室克隆到 VPS 上的 /root/agent-control-room
  • 绑定的技能链接到 VPS 上的 ~/.claude/skills
  • 一个已注册的 Hermes Agent,填写了操作手册和 env-map
  • 笔记本上的 SSH 别名,使得 ssh hermes 能瞬间连接

原型 → 生产方法论

大多数工作流一开始并不是生产级别的。它们开始时很混乱。一个运行 SEO 研究、起草文章、在 Typefully 中安排发布、并发布到 LinkedIn 的流程,不会在你的头脑中完整成形。你需要通过运行它来发现它。

Hermes 就是实现这一点的原型环境。以下是我将任何新营销工作流从想法变成自主部署所遵循的四个步骤:

  1. 在 Hermes 中制作原型。 打开你的主 Hermes Agent,描述你想要发生的事情,然后让它尝试。第一次运行时它大部分都会出错。这没问题。
  2. 针对真实工作运行 2-3 次,每次纠正偏差。 框架会观察每一次纠正,并在学习流程形态的同时开始编写技能。到第三次运行时,Agent 已经能完成你大部分的目标而无需指导。
  3. 在专用工作区中进行微调。 将工作流拉入一个单独的 Claude Code 工作区(如果你愿意,也可以用一个全新的 Hermes Agent),收紧提示,锁定路由,添加错误处理,决定哪些应该由 cron 运行,哪些应该触发。
  4. 在 VPS 上按计划部署。 一旦它在一周的真实运行中无需你监护,就将其推送到 VPS 上的独立 Docker 容器,设置 cron,然后放手。

我是在浪费了几个周末尝试从头编写生产级 Agent 之后才学到这个模式的。你无法从头编写一个生产级 Agent。你必须“培养”一个。Hermes 让培养过程变得快速。

Shann³ - inline image
  1. 在 Hermes 中制作原型
  2. 在专用工作区中微调
  3. 在 VPS 上自主部署

我在 Hermes 上运行的模型

Hermes 为你提供了框架。底层的模型由你选择。通过工具网关,你可以从一个订阅路由到 300 多个模型,每个 Agent 或每个任务都可以切换。

我个人目前运行的是:

  • Claude Opus 4.7 用于创意工作:文案写作、语调、钩子生成、内容起草,任何需要品味和写作质量的任务
  • Codex (GPT 5.5) 用于结构化工作:编码、规划、多步骤工作流、浏览器自动化、抓取,任何步骤需要紧凑且输出可预测的任务

我同时运行两者。Opus 负责写作。Codex 负责构建和规划。Hermes 让路由变得简单,你只需将每个 Agent 指向适合其工作内容的模型。

如果你只能运行一个,答案取决于你的舰队正在做哪类工作。内容丰富且注重文案?从 Claude Opus 4.7 开始。基础设施、自动化和工程工作流繁重?从 Codex 开始。你总是可以通过同一个工具网关在后面添加第二个模型。

诚实的权衡

我不打算假装 Hermes 是完美的。三个真实的权衡。

  1. 默认配置同时也是意见。 Hermes 对记忆如何工作、技能如何编写、Agent 如何使用工具有着强烈的默认配置。这正是它的卖点。但这也意味着,如果你想要每个步骤都有显式控制的基础组件,Hermes 会显得沉重。OpenClaw 更适合那种品味。选择与你哲学相符的工具。
  1. 第三级和第四级有真正的学习曲线。 Docker、VPS、SSH、控制室文件夹结构、编排 Agent 技能,这些都不是“安装即用”的。如果你还没有每天在第一级运行 Hermes,你不应该跳到第三级。
  1. 模型仍然重要。 Hermes 是一个让好模型变得更好的框架。它不会让一个小模型变成战略家。对于重要的工作(你的编排 Agent、你的策略 Agent、你的大脑),使用你能负担得起的最强模型。对于不那么重要的工作(研究抓取、草稿生成、批量处理),降级到更便宜的模型。

这些都不是魔法。这是一个因为记忆持久、技能积累、Agent 保持范围而能产生回报的框架。将其应用于错误大小的模型,你会得到一个困惑的团队。应用于正确的模型,你会得到一个真正的团队。

资源

如果你今天开始,以下是我会按顺序阅读的内容。

  • 官方文档:hermes-agent.nousresearch.com/docs。从安装指南开始,然后阅读技能页面,了解开箱即用的内容
  • 控制室模板(我的仓库):github.com/shannhk/hermes-agent-control-room。我上面描述的精确结构,可立即克隆。用于从单个 VPS Agent 管理 Hermes Agent 到专家团队和编排工作流的 control-room-first 模板。Fork 它并让它成为你的
  • hermesatlas.com:社区策划的基于 Hermes 构建的 100 多个开源工具、插件、工作区和集成地图。按领域分类(记忆提供商、工作区、技能注册表、部署、编排)。还包括 Hermes 手册,一个适合初学者的指南。每周更新,免费通讯
  • @Teknium 在 X 上:Nous Research 创始人。几乎每天发布 Hermes 更新。Codex 运行时集成、Nous Portal 上的 DeepSeek V4 Flash 免费层、pretext 技能,都是通过他的 feed 首先出现的
  • @NousResearch 在 X 上:官方账号,官方功能公告
  • 线下活动:现在有 Hermes 的线下见面会(里斯本、文图拉,更多城市)。如果你附近有,值得参加。你在 90 分钟的闲聊中学到的东西比阅读一周还多
Shann³ - inline image

希望这篇文章对你有所帮助,感谢你阅读完整篇内容。

-- Shann

存到 YouMind

使用 YouMind 深度阅读爆款文章

保存原文、追问细节、总结观点,并在一个 AI 工作空间里把爆款文章沉淀成可复用笔记。

了解 YouMind
写给创作者

把你的 Markdown 变成干净的 𝕏 文章

图片上传、表格、代码块,往 𝕏 上手动重排太痛苦。YouMind 把整篇 Markdown 一键转成干净、可直接发布的 𝕏 文章草稿。

试试 Markdown 转 𝕏

更多可拆解样本

近期爆款文章

探索更多爆款文章