
Claude 使用限制頻繁觸發的真正原因:用戶必讀指南
AI 功能
- 曝光
- 1.1M
- 讚
- 380
- 轉發
- 105
- 留言
- 13
- 收藏
- 785
TL;DR
本指南揭示了 Claude 觸發限制的根本原因在於累積的 Token 處理量。文中提供了 9 種防止 Token 浪費的具體方法,包括精簡 CLAUDE.md 以及使用如 /context 等診斷指令來優化使用效率。
正在看 繁體中文 譯文
Claude 限制快速用罄的真正原因
直接說重點:並不是模型變笨了,而是我的開銷變大了。
但像「縮短 CLAUDE.md」這類表面建議是不夠的。你需要了解它為什麼會洩漏的結構,才能真正阻止它。
(我知道很多 AI 初學者看完可能還是不懂。所以,我會在最後附上連初學者也能用的提示詞。如果你不懂,直接複製貼上就好。希望你能從中獲得一些收穫!)
核心思維模型(這解釋了 90% 的問題)
Transformer 在每次對話輪次中,都會從頭重新處理整個對話。
當你發送第 30 條訊息時,模型讀取的內容是:→ 訊息 1–29 + 所有回應 → 所有工具呼叫結果(PR 差異、檔案讀取等)→ CLAUDE.md → 系統提示詞 → MCP 工具定義 → + 第 30 條訊息。
它在開始回答之前,就已經處理了這一切。
換句話說,第 30 輪並不是第 1 輪的 30 倍;而是每次都要處理所有累積下來的總和。
從這裡開始,你就能自然地理解為什麼 Token 會洩漏了。
9 個 Token 洩漏的漏洞
原始來源中的百分比數字(14%、13%...)是來自單一個案,概括推論有風險。我已經按影響程度重新整理。
- CLAUDE.md 膨脹 — 影響 ★★★ 只要對話還在進行,它就會包含在每一條訊息中。它不是懶加載的。一個 2,000 Token 的 CLAUDE.md 在 200 條訊息中被處理 200 次 = 400,000 Token。官方建議:少於 200 行,300–600 Token。
- 對話累積 — 影響 ★★★ 正如思維模型所述。在兩三次 PR 審查後,你的限制用掉 60% 並不奇怪;這是結構性的。
- 工具輸出累積 — 影響 ★★★ 抓取一次 PR 差異就可能注入數千行程式碼。如果你讀取了 20 個檔案,這 20 個檔案會一直跟著你直到結束。這比其他來源提到的「鉤子」更準確。
- 快取未命中 — 影響 ★★ 提示詞快取會自動套用,但如果在一段(短)時間內未使用就會過期。如果你在對話中頻繁編輯 CLAUDE.md,快取每次都會失效。
- 技能 — 影響 ★(原始來源略有錯誤)技能只在被呼叫時才載入。只有元資料會保留。真正的問題在於單一技能變得臃腫。
- 「以防萬一」的 MCP — 影響 ★★ 如果連接了 12 個 MCP,每次呼叫都會注入 12 個工具定義。只保留你實際使用的 3 個為啟用狀態。
- 擴展思考預設值 — 影響 ★★★ 通常預設為開啟。預算可能高達數萬個 Token(計費為輸出)。如果只是為了改變一個變數名稱而開啟深度推理,這真的是浪費。
- 看完錯誤答案 — 影響 ★★ 如果答案偏離軌道,立即停止。如果你不停止,那整個輸出就會成為下一輪的輸入。
- 累積的通知/元訊息 — 影響 ★ 很小,但當它們累積起來時,就會變成「安靜的違規者」。
修復前務必先診斷
這是人們經常忽略的部分。
/context ← 按項目顯示上下文中的 Token
/usage ← 對話使用量
/cost ← 累計 API 成本
只要執行一次 /context,5 秒內就能看到你案例中的頭號洩漏源。
大多數結果都類似:
- 累積的工具輸出是壓倒性的第一名
- CLAUDE.md
- MCP 工具定義
沒有測量就進行刪減是白費力氣。先砍掉你的頭號洩漏源。
30 秒基準設定(做一次就搞定)
✅ 將你的 CLAUDE.md 精簡到 200 行以下
✅ 只保留 3 個活躍的 MCP
✅ 擴展思考 → 預設關閉,只在需要時使用
✅ .claudeignore → 排除大型生成檔案
✅ 養成任務完成後使用 /clear 的習慣
7 個影響巨大的進階技巧
① 將計劃模式設為預設
在執行昂貴任務前,按 Shift+Tab × 2。在不碰觸程式碼的情況下進行計劃。用於像「重構這個」這類廣泛請求。這能最顯著地減少浪費在無效努力上的 Token 比例。
② 模型切換
80% 日常編碼 → Sonnet;複雜推理 → Opus。指令:/model sonnet,/model opus。
OpusPlan 模式:用 Opus 計劃,用 Sonnet 實作。可節省 60% 成本。
③ 選擇性地使用子 Agent
它們在單獨的上下文中運行,只將摘要返回給主對話。僅用於大量探索——對於小任務,開銷實際上更大。規則:僅當(節省的主上下文 > 子 Agent 啟動成本)時使用。
④ 主動使用 /compact
等到 80% 上下文警告時就太晚了。它會壓縮所有雜訊。
正確用法:
- 在每個任務階段結束時
- 在呼叫 /compact 前給出摘要指引:「只保留 X、Y、Z,丟棄其餘的。」
⑤ 使用精確的檔案範圍進行讀取
❌ 「查看整個程式碼庫」
✅ 「只看 src/auth.js 的第 50-120 行,並改進錯誤處理」
差異巨大。
⑥ 對話交接筆記
在結束長時間對話前:
「用少於 500 Token 總結目前完成的工作、下一步行動和重要決定。」
將此貼到下一個對話中 = 比重建整個歷史記錄少花費數十倍 Token。
⑦ 對重複性任務使用斜線指令
不要每次都用自然語言解釋常見模式(PR 審查格式、測試規則)。將它們定義為斜線指令 → 確定性高且輕量。比把它們放在 CLAUDE.md 中有效率得多。
常見陷阱
❌ 「把所有東西都放在 CLAUDE.md 裡很方便」 → 你每一輪都要付出那個成本。
❌ 「子 Agent 總是更便宜」 → 對於小任務實際上更昂貴。
❌ 「更大的上下文讓它更聰明」 → 相反。由於上下文腐化,品質會下降。
❌ 「從 Pro 升級到 Max 就能解決」 → 同樣的低效率只是變得貴 5 倍。先修復洩漏。
Token 浪費是行為問題,不是限制問題。
執行一次 /context、精簡 CLAUDE.md、整理 MCP、以及控制擴展思考,就能解決大部分問題。
記住每一條訊息都支付了所有先前訊息的成本,你就會知道從哪裡開始刪減。
給初學者的提示詞
給 Claude Code 使用者(自我診斷與精簡設定)
執行 /context 指令並分析結果。
然後,依序執行以下操作:
1. 告訴我佔用最多 Token 的前 1-3 個項目。
2. 針對每個項目,建議一個我現在可以採取的具體行動來減少它們(包括預估的 Token 節省量)。
3. 讀取我的 CLAUDE.md,並建議一個精簡到 200 行 / 600 Token 以下的版本。建議將移除的內容移到哪裡(技能?斜線指令?還是直接刪除?)。
4. 最後,檢查其他洩漏,例如擴展思考或 MCP 工具組織。
由於我是初學者,請將結果優先排序為「現在就做 / 有時間再做」。
給 Claude.ai 聊天使用者(對話衛生)
當對話變長、回應變慢或限制逼近時,複製貼上:
用少於 500 字元總結這段對話中真正重要的資訊。排除試錯、離題和問候;只專注於核心結論、決定和下一步行動。我會複製這個來開始一個新的對話,所以請組織好,讓我在貼上後能立即恢復工作。
只要拿到這兩個提示詞,就能幫助你更舒適地使用 AI,而不浪費 Token!如果這對你有幫助,請按個讚!
如果你有任何其他問題,請在留言區提出~


