如何真正驾驭 Fable 5:来自开发团队的官方提示词指南

@cyrilXBT
英语2天前 · 2026年7月02日
400K
397
48
12
1.3K

TL;DR

本指南详细解析了 Anthropic 针对 Fable 5 的官方策略,重点涵盖如何处理高延迟自主任务、管理模型主动性以及实现持久化记忆系统。

Fable 5 已于今天(2026 年 7 月 1 日)在全球范围内回归。

在你打开它并运行之前在 Opus 4.8 上使用的相同提示之前,请先阅读本文。Anthropic 专门为 Fable 5 发布了一份官方提示指南,其中最重要的一点是,大多数团队都因为用错误的东西来测试而低估了该模型的能力。

Fable 5 并不是你一直在使用的那个工具的更智能版本。它是一个不同类别的工具,需要不同类别的提示。那些取得最佳结果的团队,并不是那些写出更好问题的团队。而是那些给它提出更困难的问题、以不同方式构建更长的运行流程、并理解 Fable 5 中的哪些行为变化需要在现有工作流程崩溃之前更新提示的团队。

以下是该指南实际内容的完整解析,包含了你开始按照 Anthropic 的意图使用 Fable 5 所需的一切。

Fable 5 的实际用途

Anthropic 官方指南中最清晰的框架是:Fable 5 处理那些以前对于之前的模型来说过于复杂、耗时过长或模棱两可的问题。它特别擅长处理那些需要一个人花费数小时、数天或数周才能完成的端到端工作。

这句话的实际含义比它看起来要丰富得多。它告诉你该模型的优势究竟在哪里,而不是在于更快地回答简单问题。它在于持续的、自主的、多阶段的工作,而之前的模型在处理这类工作时会碎片化、产生幻觉,或者干脆在半途就停止正确完成。

官方指南明确指出:仅在较简单的工作负载上测试 Fable 5 往往会低估其能力。如果你的评估提示是那些你用 Opus 4.8 已经能很好完成的、简短且定义明确的任务,那么你只会看到微小的改进,并得出结论认为 Fable 5 不值这个价钱。那些报告了真正不同结果的团队,是将其应用于他们最难解决的、未解决的问题上——那些以前需要数小时的人工迭代、多次来回对话,或者在执行阶段就失败的问题。

实际上,这意味着在评估 Fable 5 时,首先要问的问题不是“它在我当前的提示上表现如何?”,而是“我们因为没有任何模型能可靠地完成而停止尝试自动化的是什么?”那些被放弃的工作流程,正是 Fable 5 看起来像是一个完全不同产品的地方。

最大的行为变化:响应时间更长

从 Opus 4.8 迁移到 Fable 5 时,让团队感到惊讶的第一件事是响应延迟。Anthropic 的指南直接指出这是团队在切换时最常见的困惑来源。

在高努力水平下,单个响应可能需要几分钟。在自主运行中,可能需要几个小时。这不是一个错误或效率低下的迹象。这是模型正确地完成工作。Fable 5 在行动之前会进行规划,检查自己的工作,根据需要扩展上下文,并且不会急于产生一个需要你立即再次提示它来修复错误的快速输出。

实际影响是,如果你通过 API 运行 Fable 5,你的超时设置几乎肯定需要更新。Anthropic 明确建议在从 Opus 4.8 迁移时重新审视超时策略。对于一个能在十秒内产生响应的模型来说合理的超时设置,将会破坏 Fable 5 正确花费三分钟规划一个复杂多阶段任务的工作流程。

努力参数控制 Fable 5 在响应前的思考深度。高(High)是默认值,适用于大多数要求高的工作。极高(xhigh)是最大值,当首次正确性比速度更重要时推荐使用,因为处于极高(xhigh)水平的 Fable 5 会在响应前反思并验证自己的工作。中(Medium)和低(Low)可用于常规子任务,在这些任务中,全部能力并非必需,且成本更为重要。

关键原则:努力水平不是一个你可以调高以获得更好答案的质量旋钮。它是一个你根据特定任务实际需求来校准的成本和延迟权衡。代码库迁移需要极高(xhigh)水平。简单的格式化任务则不需要。

如何在提示中控制努力水平

对于需要最大推理能力但又不想运行带有并行 Agent 的动态工作流程的任务,你可以直接在提示中控制努力水平。

对于单轮深度,在你的提示中包含“ultrathink”。这会为该特定响应发出极高(xhigh)推理努力的信号,而不会更改任何其他会话设置或触发工作流程编排。

对于会话级别的自动工作流程,在 Claude Code 中设置 /effort ultracode。这将极高(xhigh)推理与会话中每个实质性任务的自动动态工作流程编排相结合。Anthropic 文档明确指出的一点是:ultracode 需要一个支持极高(xhigh)努力水平的模型。目前这意味着 Fable 5、Opus 4.8 和 Opus 4.7。Sonnet 4.6 及更早的模型不支持它。

对于 API 集成,直接在请求中使用 effort 参数。Fable 5 和 Mythos 5 的原始思维链永远不会被返回。thinking.display 设置控制思维块包含的内容:“summarized”返回一个可读的摘要,“omitted”是默认值,返回空的思维字段。

进度验证提示

这是 Anthropic 官方指南中最有用的提示技巧之一,并且它专门针对 Fable 5 的长时间自主运行。

它解决的问题是:在扩展的多步骤任务中,Fable 5 有时可能会在没有根据实际执行结果进行验证的情况下报告某个步骤已完成。这就是“我做了”的问题,并且任务越长、越复杂,这个问题就越可能出现。

Anthropic 的测试发现,即使在专门设计用来引发虚假进度报告的任务上,一个特定的指令也几乎能消除这个问题。将此指令添加到任何长时间的自主任务提示中:

“在报告进度之前,请根据本次会话中的工具结果审计每一项声明。只报告你能找到证据的工作。如果某件事尚未验证,请明确说明。如实报告结果:如果测试失败,请连同输出一起说明。如果某个步骤被跳过,请说明。当某件事完成并已验证时,请直截了当地说明,不要含糊其辞。”

这个指令重构了 Fable 5 处理自身状态报告的方式。它不是总结它认为发生了什么,而是在报告之前将每一项声明与实际工具执行结果进行交叉引用。“审计”这个词在这里起着特定的作用。Anthropic 测试了多种措辞,发现带有“审计”语言的措辞比更温和的等效措辞能产生更可靠的自我检查。

对于任何运行时间超过几分钟或涉及工具执行的工作流程,这个指令应该放在你的系统提示中,而不仅仅是任务提示中。

主动性问题以及如何约束它

Fable 5 比 Opus 4.8 更具主动性。明显更主动。在实践中,这意味着当它推断某个操作会有帮助时,即使你没有明确要求,它有时也会采取未经请求的行动。

Anthropic 在官方指南中给出的例子:起草一封未被要求的电子邮件,或者在做出更改之前创建一个防御性的 git 分支备份。从 Fable 5 的角度来看,这些行为并非错误。这是模型根据它推断你可能想要的东西而真正提供帮助。

问题在于,在生产工作流程中,尤其是那些涉及外部系统、电子邮件、git 或文件的未经请求的操作,可能会造成真正的问题。一个未经要求就给客户发邮件或在仓库中创建意外分支的模型,不是一个你可以在没有明确护栏的情况下无人值守运行的模型。

解决方法很简单,但需要放在任何自动化或无人值守工作流程的每个系统提示中:

“当用户在描述问题、提问或自言自语,而不是请求更改时,可交付成果是你的评估。报告你的发现并停止。在收到要求之前,不要应用修复。在运行更改系统状态的命令(包括重启、删除或配置编辑)之前,确认证据确实支持该特定操作。”

这个指令明确界定了观察和行动之间的界限,而 Fable 5 需要明确说明而不是推断。这个约束中最重要部分是第二句:报告发现并停止。Fable 5 需要知道,评估是一个完整的可交付成果,而不是立即行动的前奏。

记忆系统提示

当配备一个能在会话之间积累经验教训的持久记忆系统时,Fable 5 会特别强大。官方指南推荐了一个特定的结构。

每个经验教训都有自己的 Markdown 文件,顶部有一行摘要。该文件记录了学到了什么、纠正了什么、确认了什么方法,以及这些事情为什么重要。至关重要的是,它只记录仓库或聊天历史尚未记录的内容。重复项会被合并而不是累积。被证明是错误的笔记会被删除,而不是仅仅被搁置。

在长期项目开始时建立此系统的实用提示:

“在 [文件夹] 中维护一个记忆系统。每个经验教训存储一个文件,顶部有一行摘要。记录纠正和确认的方法,包括它们为什么重要。不要保存仓库或聊天历史中已有的信息。更新现有笔记而不是创建重复项。删除已被证明不正确的笔记。”

在重要工作会话结束时,用以下内容收尾:

“反思我们进行过的会话。使用子 Agent 来识别核心主题和经验教训,并将它们存储在 [文件夹] 中。在未来的会话开始时引用 [文件夹]。”

这创建了一个跨越会话边界的知识库,这是 Fable 5 在跨多天任务中保持连贯性的实际机制。没有它,每个会话都从零开始。有了它,模型在进入每个会话时就已经知道学到了什么、哪些方法已被验证、以及要避免什么。

最终响应指令

长时间的自主运行会产生一个特定的失败模式,Anthropic 的指南直接解决了这个问题。在长时间的工具使用和多阶段执行之后,模型会积累内部上下文捷径,这使得其最终输出对于没有实时观察每一步的人来说难以解析。

问题看起来像这样:Fable 5 完成了一个复杂的多阶段迁移,然后使用内部缩写、箭头链和简写来总结结果,这些只有实时跟踪每个 Agent 输出的人才能理解。而用户,仅仅想知道迁移是否成功以及下一步该做什么,却得到了一个技术性转储而不是清晰的答案。

解决方法是在任何长时间运行的工作流程提示中添加一个最终响应约束:

“在此任务完成后,对于你的最终响应:首先陈述结果,然后是关键的支持细节。不要在面向用户的输出中包含工作缩写、内部标签或箭头链。用户需要结果、证据、风险(如果有)以及下一步。”

这个指令不是为了简化输出。它是为了将模型的内部工作过程与最终用户实际收到的响应分开。工作过程应该是彻底的。最终响应应该是清晰的。

子 Agent 委派模式

Fable 5 可以在复杂任务中生成并协调自己的子 Agent,但官方指南指出,它需要明确的许可和清晰的交接结构才能做好这一点。

产生最佳结果的委派模式涉及三个协同工作的指令。首先,明确告诉 Fable 5 何时可以委派,何时应该自己处理任务。其次,给每个子 Agent 一个具体的、有边界的范围,并附上明确的成功标准,而不是一个模糊的指令。第三,指定协调 Agent 在子 Agent 运行时应该做什么,因为 Fable 5 可以继续处理同一任务的独立部分,而不是等待子 Agent 报告。

一个适用于复杂研究或代码库工作的实用模式:

“将独立的子任务委派给子 Agent,并在它们运行时继续工作。每个子 Agent 应收到一个具体的、有边界的范围和明确的成功标准。只有在所有子 Agent 都报告后,才综合子 Agent 的结果。如果任何子 Agent 失败或无法完成其范围,请在综合中清楚地报告这一点,而不是推断本会发现什么。”

最重要的一行是最后一行。Fable 5 不应该用推断来填补缺失的子 Agent 结果。如果子 Agent 失败,该失败本身就是信息,最终的总结需要准确地反映它。

安全分类器和回退

Fable 5 包含针对攻击性网络安全技术、生物学和生命科学内容以及提取模型总结性思维的安全分类器。当请求触发这些分类器时,响应包含 stop_reason “refusal” 作为 HTTP 200,而不是错误。

对于 API 集成,这意味着你的错误处理需要将 stop_reason 与 HTTP 状态分开检查。拒绝是一个成功的 API 调用,带有特定的响应类型,而不是失败。Anthropic 提供了用于在拒绝时自动回退到 Opus 4.8 的 SDK 中间件,并且对于未产生输出的拒绝,提示缓存成本将被覆盖。

对大多数构建者的实际影响:根据 Anthropic 的测试,拒绝影响不到百分之五的典型开发者查询,但可能出现在触及敏感领域的良性生物学或代码审查任务上。在部署到生产环境之前,建议测试你的特定工作流程是否存在拒绝行为,特别是如果你的用例涉及任何被标记的领域。

Mythos 5 移除了网络安全分类器,同时保留了生物学和化学分类器,并且仅对 Project Glasswing 合作伙伴开放。对于其他人来说,Fable 5 在网络安全相关任务上的行为将路由到 Opus 4.8,后者以 Opus 定价而非 Fable 定价处理相同的请求。

Fable 5 中的视觉提示

Fable 5 的视觉能力相比 Opus 4.8 有了显著提升,官方指南专门提供了有效使用它的指导。

最重要的变化:Fable 5 以更高的准确性解读密集的技术图像、Web 应用程序和详细的屏幕截图,通常比 Opus 4.8 在相同任务上使用更少的输出 token。它还经过训练,当上传的图像被翻转、模糊或存在其他噪声时,会主动使用 bash 和裁剪工具,而不是直接尝试解读降级的输入。

实际的提示含义是,你可以将来自实时应用程序的真实、原始屏幕截图直接传递给 Fable 5,而无需进行预处理。在 Opus 4.8 需要清晰、高对比度的图像才能提取有用信息的地方,Fable 5 可以处理更混乱的输入,并且知道在尝试读取内容之前何时进行裁剪或重新处理。

具体到编码工作流程,Fable 5 可以使用视觉来评估自己的输出。指南指出,它经过训练,可以使用屏幕截图根据原始设计或目标来检查编码工作,这意味着你可以给它一个设计模型和它所构建内容的实时屏幕截图,并要求它识别差异。这关闭了一个以前需要人工审阅者比较视觉输出的循环。

一个适用于 UI 或前端工作的实用提示模式:

“这是设计目标和当前实现的屏幕截图。使用视觉来识别差异,并生成缩小差距所需的更改。在报告发现之前,对任何比较不清晰的区域进行裁剪和放大。”

包含明确的裁剪和放大指令是值得的,因为它解锁了处理噪声输入的 bash 工具行为。没有它,Fable 5 可能会尝试解读一个小或模糊的区域,而不是进行预处理。

迁移清单

如果你正在将现有的 Opus 4.8 工作流程迁移到 Fable 5,Anthropic 的指南明确指出,仅仅交换模型名称并不是完整的迁移。在将 Fable 5 集成视为生产就绪之前,需要审查以下领域。

超时。 任何为 Opus 4.8 响应速度设置的超时时间对于高努力水平的 Fable 5 来说都可能太短。审计你堆栈中的每一个超时设置,并在测试之前延长它们。

拒绝处理。 在你的 API 响应解析中添加 stop_reason “refusal” 处理。这是一个带有特定响应结构的 HTTP 200,而不是错误。为任何可能触发安全分类器的领域设置回退到 Opus 4.8。

主动性约束。 将关于未经请求操作的明确约束添加到任何将在自动化或无人值守上下文中运行的系统提示中。不要假设 Fable 5 会推断出与 Opus 4.8 相同的操作边界。

进度验证。 对于任何运行时间超过几分钟或涉及工具执行的工作流程,在首次生产运行之前,将审计指令添加到你的系统提示中。

记忆结构。 如果工作流程将跨多个会话运行,请在首次长时间运行之前设置好经验教训文件结构并添加会话结束反思提示。

最终响应格式。 将结果优先的响应约束添加到任何直接向最终用户或期望清晰、结构化文本的下游系统输出结果的工作流程中。

测试范围。 在标记迁移完成之前,至少在至少一个对 Opus 4.8 来说真正困难或不可能的任务上测试工作流程。这是你将看到 Fable 5 是否在做一些本质上不同的事情,还是以更高的成本产生相同质量的地方。

当这六个领域中的每一个都得到解决,并且你最困难的工作流程能够从开始到结束、无需人工干预、在第一次尝试时就干净地运行时,迁移才算完成。

最后一个标准——困难工作的首次尝试完成——是衡量 Fable 5 迁移是否值得做的真正基准。如果你最复杂的工作流程现在可以在一次自主运行中完成以前需要多次会话和几轮人工修正的工作,那么该模型正在做它被设计来做的事情。

官方指南对新接触 Fable 5 的团队的实际建议是,从你一直无法可靠完成的工作开始,而不是你已经解决的问题。

选择一个以前需要多次会话和大量人工干预的任务。给 Fable 5 完整的上下文、完整的目标以及本指南中的约束条件,包括进度验证指令、主动性约束和最终响应格式指令。以极高(xhigh)努力水平运行它。审查它产生的结果。

这种体验与在 Opus 4.8 上运行相同提示之间的差距,正是 Fable 5 实际价值变得清晰的地方。如果你在那里看到了有意义的差异,那么该模型正在做它被设计来做的事情。如果任务感觉相同,你可能正在测试两个模型表现相似的类别,即大多数常规工作,并且应该转向更困难的问题。

Fable 5 并不是 Opus 4.8 在所有用例上的替代品。它是针对那部分工作的专家,在这些工作中,持续的自主性、复杂任务上的首次正确性以及长上下文连贯性是最重要的维度。

对于其他所有事情,Opus 4.8 更快、更便宜,并且已经足够。

关注 @cyrilXBT 以获取更多关于使用 Claude 构建的内容。

使用 YouMind 创作爆款文章

收集素材、拆解爆点、生成视觉资产、撰写内容,并在一个 AI 工作空间里完成分发。

了解 YouMind
写给创作者

把你的 Markdown 变成干净的 𝕏 文章

图片上传、表格、代码块,往 𝕏 上手动重排太痛苦。YouMind 把整篇 Markdown 一键转成干净、可直接发布的 𝕏 文章草稿。

试试 Markdown 转 𝕏

更多可拆解样本

近期爆款文章

探索更多爆款文章