如何正確地對 Fable 5 下達指令:來自開發團隊的第一手指南

@cyrilXBT
英語2 天前 · 2026年7月02日
400K
397
48
12
1.3K

TL;DR

本指南解析了 Anthropic 針對 Fable 5 的官方策略,重點在於如何處理高延遲的自動化任務、管理模型的自主性,以及實作持久化記憶系統。

Fable 5 已於今日(2026 年 7 月 1 日)在全球重新上線。

在你打開它並執行之前在 Opus 4.8 上使用的相同提示詞之前,請先閱讀以下內容。Anthropic 專門為 Fable 5 發布了一份官方提示指南,其中最重要的一點是:大多數團隊因為用錯誤的方式測試模型,而低估了它的能力。

Fable 5 不是你一直在使用的工具的「更聰明版本」。它是一個不同類別的工具,需要不同類別的提示詞。獲得最佳結果的團隊,並不是那些能寫出更好問題的團隊;而是那些能賦予它更困難的問題、以不同方式建構更長的執行流程,並理解 Fable 5 哪些行為變化需要在現有工作流程中斷前更新提示詞的團隊。

以下就是該指南的完整解析,包含你開始按照 Anthropic 的意圖使用 Fable 5 所需的一切。

Fable 5 的真正用途

Anthropic 官方指南中最清晰的論述是:Fable 5 處理的是先前模型因過於複雜、耗時或模糊而無法解決的問題。它在處理需要人類花費數小時、數天甚至數週才能完成的端到端工作時特別有效。

這句話的含義遠比表面上看起來更深。它告訴你這個模型的優勢究竟在哪裡——不在於更快地回答簡單問題,而在於持續、自主、多階段的運作。先前的模型在這種運作中會出現碎片化、產生幻覺,或是在中途就無法正確完成任務。

官方指南明確指出:僅在較簡單的工作負載上測試 Fable 5,往往會低估其能力。如果你的評估提示詞是那些你用 Opus 4.8 就能輕鬆完成的簡短、定義明確的任務,你只會看到邊際改善,並得出 Fable 5 不值得其成本的結論。而那些報告出截然不同成果的團隊,則是將其應用於他們最困難的未解決問題——那些先前需要數小時人工迭代、多次來回對話,或在執行階段就失敗的問題。

實際上,這意味著評估 Fable 5 時要問的第一個問題不是「它在我的當前提示詞上表現如何?」,而是「我們因為沒有模型能可靠完成而停止嘗試自動化的是什麼?」那些被放棄的工作流程,正是 Fable 5 開始看起來像一個完全不同產品的地方。

最大的行為變化:回應時間更長

從 Opus 4.8 遷移到 Fable 5 的團隊,首先會感到驚訝的是回應延遲。Anthropic 的指南直接指出這是團隊轉換時最常見的困惑來源。

在高努力模式下,單一回應可能需要數分鐘。在自主運行中,可能需要數小時。這不是一個錯誤或效率低下的跡象。這是模型正確完成工作的表現。Fable 5 在行動前會先規劃,檢查自己的工作,根據需要擴展上下文,並且不會急於產生一個需要你立即再次提示它來修復錯誤的快速輸出。

實際的影響是:如果你透過 API 運行 Fable 5,你的超時設定幾乎肯定需要更新。Anthropic 明確建議,從 Opus 4.8 遷移時,應將重新審視超時策略作為一部分。一個對於能在十秒內產生回應的模型來說合理的超時設定,將會破壞 Fable 5 花費三分鐘規劃複雜多階段任務的正確工作流程。

「努力程度」參數控制 Fable 5 在回應前的思考深度。「高」是預設值,適用於大多數要求高的工作。「極高」是最大值,建議在首次正確性比速度更重要時使用,因為處於「極高」模式的 Fable 5 會在回應前反思並驗證自己的工作。「中」和「低」則適用於不需要完整能力且成本重要的常規子任務。

關鍵原則:努力程度不是一個你可以為了獲得更好答案而調高的「品質旋鈕」。它是一個你需要根據特定任務實際需求來校準的成本與延遲權衡。程式碼庫遷移需要「極高」模式。簡單的格式化任務則不需要。

如何在提示詞中控制努力程度

對於那些你希望獲得最大推理能力,但又不想運行帶有並行 Agent 的動態工作流程的任務,你可以直接在提示詞中控制努力程度。

對於單輪深度,在你的提示詞中加入「ultrathink」。這會針對該特定回應發出「極高」推理努力的訊號,而不會改變任何其他會話設定或觸發工作流程編排。

對於會話級別的自動工作流程,在 Claude Code 中設定 /effort ultracode。這會將會話中每個實質性任務的「極高」推理與自動動態工作流程編排結合起來。Anthropic 文件明確指出一個重要注意事項:ultracode 需要一個支援「極高」努力程度的模型。目前這意味著 Fable 5、Opus 4.8 和 Opus 4.7。Sonnet 4.6 及更早的模型不支援此功能。

對於 API 整合,直接在請求中使用 effort 參數。Fable 5 和 Mythos 5 永遠不會返回原始思維鏈。thinking.display 設定控制思維區塊包含的內容:「summarized」返回可讀的摘要,「omitted」是預設值,返回空的思維欄位。

進度驗證提示詞

這是 Anthropic 官方指南中最有用的單一提示技巧,並且專門針對 Fable 5 的長時間自主運行。

它解決的問題是:在擴展的多步驟任務中,Fable 5 有時可能會在一個步驟尚未根據實際執行結果進行驗證時,就報告該步驟已完成。這就是「我完成了」的問題,而且任務越長、越複雜,這種情況就越可能發生。

Anthropic 的測試發現,即使在專門設計用來誘發虛假進度報告的任務上,一個特定的指令幾乎可以消除這個問題。將以下內容添加到任何長時間自主任務的提示詞中:

「在報告進度之前,請根據本次會話中的工具結果審計每一項聲明。僅報告你能指出證據的工作。如果某件事尚未驗證,請明確說明。如實報告結果:如果測試失敗,請連同輸出一起說明。如果某個步驟被跳過,請陳述這一點。當某件事完成並經過驗證時,請直接陳述,不要含糊其辭。」

這個指令重構了 Fable 5 處理其自身狀態報告的方式。它不再總結自己認為發生的事情,而是在報告之前將每一項聲明與實際的工具執行結果進行交叉比對。「審計」這個詞在這裡起到了特定作用。Anthropic 測試了多種措辭,發現使用「審計」相關的語言比使用較溫和的等效措辭能產生更可靠的自我檢查。

對於任何運行時間超過幾分鐘或涉及工具執行的工作流程,這個指令應該放在你的系統提示詞中,而不僅僅是你的任務提示詞中。

主動性問題及其約束

Fable 5 比 Opus 4.8 更具主動性。明顯地更具主動性。在實踐中,這意味著當它推斷某個行動會有幫助時,它有時會採取未經請求的行動,即使你沒有明確要求它這麼做。

Anthropic 在官方指南中給出的例子:在沒有要求的情況下起草一封電子郵件,或者在進行更改之前創建一個防禦性的 git 分支備份。從 Fable 5 的角度來看,這些行為並非錯誤。它們是模型基於它推斷你可能想要什麼而表現出的真正幫助。

問題在於,在生產工作流程中,未經請求的行動,尤其是那些觸及外部系統、電子郵件、git 或檔案的行動,可能會導致真正的問題。一個未經要求就給客戶發送電子郵件或在儲存庫中創建意外分支的模型,如果沒有明確的護欄,是無法無人值守運行的。

解決方法很直接,但需要放在每個自動化或無人值守工作流程的系統提示詞中:

「當用戶正在描述問題、提出問題或思考(而非要求更改)時,你的可交付成果是你的評估。報告你的發現並停止。在被告知之前,不要應用任何修復。在運行任何會改變系統狀態的命令(包括重啟、刪除或配置編輯)之前,請確認證據確實支持該特定操作。」

這個指令明確定義了觀察和行動之間的界限,而 Fable 5 需要明確陳述這個界限,而不是讓它去推斷。這個約束最重要的部分是第二句話:報告發現並停止。Fable 5 需要知道,評估本身就是一個完整的可交付成果,而不是立即行動的前奏。

記憶系統提示詞

當配備一個能在不同會話間累積經驗的持久記憶系統時,Fable 5 會特別強大。官方指南推薦了一種特定的結構。

每個經驗教訓都有一個獨立的 Markdown 檔案,頂部有一行摘要。該檔案記錄了學到了什麼、糾正了什麼、確認了什麼方法,以及為什麼這些事情很重要。關鍵在於,它只記錄儲存庫或聊天記錄中尚未記錄的內容。重複的內容會被合併,而不是累積。後來被證明是錯誤的筆記會被刪除,而不僅僅是被遺棄。

在一個長期項目開始時建立此機制的實用提示詞:

「在 [資料夾] 中維護一個記憶系統。每個經驗教訓存儲一個檔案,頂部有一行摘要。同時記錄糾正和確認的方法,包括它們為何重要。不要保存儲存庫或聊天記錄中已有的資訊。更新現有筆記,而不是創建重複項。刪除已被證明不正確的筆記。」

在重要的工作會話結束時,以以下內容結尾:

「反思我們進行過的會話。使用子 Agent 來識別核心主題和經驗教訓,並將它們存儲在 [資料夾] 中。在未來會話開始時參考 [資料夾]。」

這創建了一個能夠跨越會話邊界的知識庫,這是 Fable 5 在跨日任務中保持連貫性的實際機制。沒有它,每個會話都從零開始。有了它,模型在進入每個會話時,已經知道學到了什麼、哪些方法已被驗證、以及要避免什麼。

最終回應指令

長時間的自主運行會產生一個特定的失敗模式,Anthropic 的指南直接解決了這個問題。在長時間使用工具和多階段執行之後,模型會累積內部上下文捷徑,使得其最終輸出對於沒有全程觀看每一步的人來說難以解析。

這個問題看起來是這樣的:Fable 5 完成了一個複雜的多階段遷移,然後使用內部縮寫、箭頭鏈和速記法來總結結果,這些只有即時跟蹤了每個 Agent 輸出的人才能理解。而用戶,只是想了解遷移是否成功以及下一步該怎麼做,卻得到了一個技術性轉儲,而不是一個清晰的答案。

解決方案是一個添加到任何長時間運行工作流程提示詞中的最終回應約束:

「在此任務完成後的最終回應中:首先陳述結果,然後是關鍵的支持細節。不要在面向用戶的輸出中包含工作縮寫、內部標籤或箭頭鏈。用戶需要的是結果、證據、任何風險以及下一步行動。」

這個指令不是為了簡化輸出。而是為了將模型的內部工作過程與最終用戶實際收到的回應區分開來。工作過程應該是詳盡的。最終回應應該是清晰的。

子 Agent 委派模式

Fable 5 可以在複雜任務中生成並協調自己的子 Agent,但官方指南指出,它需要明確的許可和清晰的交接結構才能做好這一點。

產生最佳結果的委派模式涉及三個協同工作的指令。首先,明確告訴 Fable 5 何時可以委派,何時應該自己處理任務。其次,給每個子 Agent 一個具體、有界限的範圍和明確的成功標準,而不是模糊的指令。第三,指定協調 Agent 在子 Agent 運行時應該做什麼,因為 Fable 5 可以繼續處理同一任務的獨立部分,而不是等待子 Agent 回報。

一個適用於複雜研究或程式碼庫工作的實用模式:

「將獨立的子任務委派給子 Agent,並在它們運行時繼續工作。每個子 Agent 應收到一個具體、有界限的範圍和明確的成功標準。僅在所有子 Agent 回報後再綜合它們的結果。如果任何子 Agent 失敗或無法完成其範圍,請在綜合報告中清楚說明,而不是推斷本應發現的內容。」

最重要的一行是最後一行。Fable 5 不應該用推斷來填補缺失的子 Agent 結果。如果一個子 Agent 失敗了,這個失敗本身就是資訊,最終的綜合報告需要準確地反映它。

安全分類器與備援方案

Fable 5 包含針對攻擊性網路安全技術、生物與生命科學內容,以及提取模型總結思維的安全分類器。當請求觸發這些分類器時,回應會包含 stop_reason 為 "refusal" 的 HTTP 200 狀態碼,而不是錯誤。

對於 API 整合,這意味著你的錯誤處理需要將 stop_reason 與 HTTP 狀態分開檢查。拒絕是一個帶有特定回應類型的成功 API 呼叫,而不是失敗。Anthropic 提供了 SDK 中介軟體,可在拒絕時自動回退到 Opus 4.8,並且在未產生輸出的拒絕情況下,提示快取成本由 Anthropic 承擔。

對大多數開發者來說的實際影響:根據 Anthropic 的測試,拒絕影響不到百分之五的典型開發者查詢,但可能會出現在觸及敏感領域的良性生物學或程式碼審查任務中。建議在部署到生產環境之前,針對你的特定工作流程測試拒絕行為,特別是如果你的使用案例涉及任何被標記的領域。

Mythos 5 移除了網路安全分類器,同時保留了生物學和化學分類器,並且僅對 Project Glasswing 合作夥伴開放。對於其他人來說,Fable 5 在網路安全相關任務上的行為將路由到 Opus 4.8,後者以 Opus 定價(而非 Fable 定價)處理相同的請求。

Fable 5 中的視覺提示

Fable 5 的視覺能力相比 Opus 4.8 有顯著升級,官方指南專門提供了有效使用它的具體指導。

最重要的變化:Fable 5 能以更高的準確度解釋密集的技術圖像、網頁應用程式和詳細的螢幕截圖,並且在相同任務上使用的輸出 token 通常少於 Opus 4.8。它還經過訓練,能夠在上傳的圖像翻轉、模糊或有其他雜訊時,主動使用 bash 和裁剪工具,而不是直接嘗試解釋劣質輸入。

實際的提示含義是,你可以將真實、原始的即時應用程式螢幕截圖傳遞給 Fable 5,而無需預先處理。Opus 4.8 需要乾淨、高對比度的圖像才能提取有用資訊,而 Fable 5 則能處理更雜亂的輸入,並且知道在嘗試讀取內容之前進行裁剪或重新處理。

具體到編碼工作流程,Fable 5 可以使用視覺來評估自己的輸出。指南指出,它經過訓練,可以使用螢幕截圖來檢查編碼工作是否符合原始設計或目標,這意味著你可以給它一個設計模型和它構建內容的即時螢幕截圖,讓它找出差異。這閉合了一個先前需要人類審查者比較視覺輸出的循環。

一個適用於 UI 或前端工作的實用提示模式:

「這是設計目標和當前實現的螢幕截圖。使用視覺來識別差異,並生成縮小差距所需的更改。在報告發現之前,對任何比較不明確的區域進行裁剪和放大。」

明確包含裁剪和放大的指令是值得的,因為它解鎖了處理雜訊輸入的 bash 工具行為。沒有它,Fable 5 可能會嘗試解釋一個小或模糊的區域,而不是對其進行預處理。

遷移檢查清單

如果你要將現有的 Opus 4.8 工作流程遷移到 Fable 5,Anthropic 的指南明確指出,僅僅更換模型名稱並不是完整的遷移。在將 Fable 5 整合視為生產就緒之前,需要審查以下領域。

超時設定。任何為 Opus 4.8 回應速度設定的超時時間,對於高努力模式下的 Fable 5 來說都可能太短。審計你技術棧中的每一個超時設定,並在測試前延長它們。

拒絕處理。在你的 API 回應解析中添加對 stop_reason 為 "refusal" 的處理。這是一個帶有特定回應結構的 HTTP 200,而不是錯誤。為任何可能觸發安全分類器的領域設定回退到 Opus 4.8。

主動性約束。將關於未經請求行動的明確約束添加到任何將在自動化或無人值守環境中運行的系統提示詞中。不要假設 Fable 5 會推斷出與 Opus 4.8 相同的界限。

進度驗證。對於任何運行時間超過幾分鐘或涉及工具執行的工作流程,在首次生產運行之前,將審計指令添加到你的系統提示詞中。

記憶結構。如果工作流程將跨越多個會話運行,請在首次長時間運行之前設置好經驗教訓檔案結構,並添加會話結束反思提示詞。

最終回應格式。將結果優先的回應約束添加到任何直接向最終用戶輸出結果,或輸出到期望乾淨、結構化文本的下游系統的工作流程中。

測試範圍。在標記遷移完成之前,至少在一個對 Opus 4.8 來說真正困難或不可能的任務上測試該工作流程。這是你將看到 Fable 5 是否在做一些本質上不同的事情,或者只是在更高成本下產生相同品質的地方。

當以上六個領域都已處理完畢,並且你最困難的工作流程能夠從頭到尾、無需人工干預、在首次嘗試時就順利完成時,遷移才算完成。

最後一個標準——困難工作的首次嘗試完成——是衡量 Fable 5 遷移是否值得的真正基準。如果你最複雜的工作流程現在能夠在單次自主運行中完成先前需要多次會話和多輪人工修正的工作,那麼這個模型正在做它被設計來做的事情。

官方指南對剛接觸 Fable 5 的團隊的實用建議是:從你一直無法可靠完成的工作開始,而不是你已經解決的工作。

選擇一個先前需要多次會話以及它們之間大量人工干預的任務。給 Fable 5 完整的上下文、完整的目標,以及本指南中的約束條件,包括進度驗證指令、主動性約束和最終回應格式指令。以「極高」努力程度運行它。審查它產出的結果。

這種體驗與在 Opus 4.8 上運行相同提示詞之間的差距,正是 Fable 5 實際價值變得清晰可見的地方。如果你在那裡看到了有意義的差異,那麼這個模型正在做它被設計來做的事情。如果任務感覺相同,你可能正在測試兩個模型表現相似的類別(即大多數常規工作),並且應該轉向更困難的問題。

Fable 5 並非在所有用例中都能取代 Opus 4.8。它是一個針對特定工作子集的專家,在這些工作中,持續自主性、複雜任務的首次正確性以及長上下文連貫性是最重要的維度。

對於其他所有事情,Opus 4.8 更快、更便宜,而且已經足夠。

關注 @cyrilXBT 以獲取更多關於使用 Claude 構建的資訊。

使用 YouMind 創作爆款文章

收集素材、拆解爆點、生成視覺資產、撰寫內容,並在一個 AI 工作空間裡完成分發。

了解 YouMind
寫給創作者

把你的 Markdown 變成乾淨的 𝕏 文章

圖片上傳、表格、程式碼區塊,往 𝕏 上手動重排太痛苦。YouMind 把整篇 Markdown 一鍵轉成乾淨、可直接發佈的 𝕏 文章草稿。

試試 Markdown 轉 𝕏

更多可拆解樣本

近期爆款文章

探索更多爆款文章