Giảm 67% Token: Chiến lược "Leo thang" cho Claude Code

"Trời ơi, lại chạm giới hạn sử dụng Claude Code rồi! 😭 Keo kiệt quá! 💢" Tôi hiểu cảm giác đó. Nhưng biết đâu vấn đề lại nằm ở cách bạn vận hành? → Vậy bạn nên làm gì? → Đọc bài viết này → Hiểu về cách tiết kiệm token → Giải quyết vấn đề cho tất cả mọi người!!!!

Bắt đầu thôi!!!

Bạn đã bao giờ gặp phải những điều này khi sử dụng Claude Code chưa?

・Đột nhiên thấy "Đã đạt giới hạn sử dụng" giữa chừng khi đang prompt

・Cứ vài giờ lại bị giới hạn tốc độ dù đang dùng gói $200/tháng

・Mất tập trung và năng suất vì lo lắng về giới hạn

・Hàng tháng lo lắng không biết có nên nâng cấp gói để tránh giới hạn

・Phải dừng giữa chừng công việc quan trọng và chạy sang dùng AI khác

Một bài viết của Miles Deutscher (@milesdeutscher), chuyên gia AI hàng đầu với 670.000 người theo dõi ở nước ngoài, hiện đang gây sốt với 3,35 triệu lượt thích 😳

Bản thân anh ấy cũng từng bị giới hạn tốc độ hàng ngày khi dùng gói $200/tháng của Anthropic. Tuy nhiên, nhờ "hiểu lại cơ chế cốt lõi của Claude," anh ấy đã không chạm phải giới hạn token nào trong suốt ba tuần qua.

Hôm nay, tôi sẽ phân tích những nội dung đó một cách dễ hiểu 👇

Bài viết gốc tại đây: https://x.com/milesdeutscher/status/2049618781841031551

■ 𝗕𝘂̛𝗼̛́𝗰 𝟭: 𝗟𝗮̣̂𝗽 𝗸𝗲̂́ 𝗵𝗼𝗮̣𝗰𝗵 (Tách biệt hoàn toàn việc lập kế hoạch và thực thi)

Miles chỉ ra điều đầu tiên: "Đừng động não với Claude Opus."

Nhiều người có lẽ làm điều này. Bạn có một ý tưởng, ném nó cho Opus để trao đổi. Chẳng mấy chốc, 30 phút đã trôi qua, và bạn đã chạm giới hạn. Nghe quen không?

Sự thật mà Miles khám phá ra qua nghiên cứu chuyên sâu là:

"Bản thân việc chat text không tiêu tốn nhiều token. Thứ thực sự tiêu tốn token là các tác vụ thực thi như code, xây dựng và thiết kế."

Nói cách khác, chỉ cần phân tách rõ ràng giai đoạn suy nghĩ về việc sẽ làm gì (Lập kế hoạch) khỏi giai đoạn thực sự làm ra nó (Thực thi), bạn có thể giảm đáng kể mức tiêu thụ của các mô hình chi phí cao.

Miles đưa ra một so sánh cụ thể. Trong trường hợp hai người cùng tạo một ứng dụng theo dõi tài chính:

Người A: Chỉ dành 2 phút lập kế hoạch và bắt đầu xây dựng với thiết kế yếu. Kết quả: Làm lại 3 lần.

Người B: Dành 20 phút lập kế hoạch để củng cố thiết kế và hoàn thành việc xây dựng trong 1 lần.

Người B đã tiết kiệm khoảng 67% token cho riêng tác vụ này. Đó là sự khác biệt $1,50 về chi phí. Có nhiều tác vụ trong một ngày, nên sự khác biệt này lên tới hàng chục đô la mỗi tháng.

Đối với những người dùng Claude Code, "Chế độ Lập kế hoạch" (Plan Mode) được truy cập bằng cách nhấn Shift+Tab×2 chính là tính năng thể hiện triết lý này.

Trong Chế độ Lập kế hoạch, Claude tập trung vào thiết kế và lập kế hoạch mà không viết code. Điều này có nghĩa là bạn có thể củng cố kiến trúc và chính sách mà không tiêu tốn token thực thi.

Hơn nữa, phong cách của Miles là để giai đoạn lập kế hoạch cho các mô hình rẻ hơn. Thay vì trao đổi ý tưởng với Opus, Haiku là đủ. Haiku đủ thông minh cho việc động não, và chi phí thì rẻ hơn nhiều lần.

Các điểm thực hành:

・Thực hiện lên ý tưởng, động não và thiết kế với Haiku

・Chỉ chuyển sang Opus sau khi thiết kế đã vững chắc và bạn đã "sẵn sàng xây dựng"

・Tạo thói quen sử dụng Chế độ Lập kế hoạch (Shift+Tab×2) mỗi lần trong Claude Code

・Càng "keo kiệt" thời gian "suy nghĩ", thì càng nhiều "việc làm lại", dẫn đến tổn thất toàn diện

■ 𝗕𝘂̛𝗼̛́𝗰 𝟮: Đ𝗼̣̂ 𝗱𝗮̀𝗶 𝗰𝘂𝗼̣̂𝗰 𝘁𝗿𝗼̀ 𝗰𝗵𝘂𝘆𝗲̣̂𝗻 (Độ dài chat chi phối tất cả)

Miles nói rằng các cuộc trò chuyện dài là những kẻ giết người thầm lặng. Đây là cái bẫy lớn nhất mà nhiều người bỏ qua.

Cơ chế là như thế này: Mỗi lần bạn gửi tin nhắn, Claude đọc lại toàn bộ ngữ cảnh trong cuộc trò chuyện đó. Điều đó có nghĩa là:

・Khi chat có 10 tin nhắn: Nó đọc token của 10 tin nhắn

・Khi chat có 100 tin nhắn: Nó đọc token của 100 tin nhắn

Khi cuộc trò chuyện càng dài, chi phí cho mỗi tin nhắn tăng theo cấp số nhân. Và chi phí không phải là vấn đề duy nhất. Khi thông tin cũ bị pha trộn vào, chất lượng đầu ra của Claude cũng giảm sút. Nó bị kéo bởi ngữ cảnh quá khứ không liên quan, và các câu trả lời lệch mục tiêu tăng lên.

Miles có hai giải pháp.

𝟭. Tận dụng 𝗣𝗿𝗼𝗷𝗲𝗰𝘁𝘀

Nếu bạn thực hiện cùng một loại tác vụ lặp đi lặp lại, hãy tạo nhiều chat con trong một Project thay vì một chat dài.

Bản thân Miles có một Project để viết trên X và mở một chat mới mỗi khi viết một bài mới. Vì cài đặt Project (Hướng dẫn) được chia sẻ trên tất cả các chat, không cần phải giải thích lại "Tôi là người như thế này, hãy viết theo phong cách này" mỗi lần.

Thông minh hơn nữa là thêm câu này vào Hướng dẫn Project:

"Hãy lưu ý rằng tôi đang cố gắng tiết kiệm việc sử dụng tài khoản. Hãy trả lời ngắn gọn, và khi thích hợp, hãy tư vấn cho tôi về thời điểm nên bắt đầu một chat mới hoặc bất kỳ mẹo nào khác có thể giúp tôi giảm sử dụng token."

Chỉ với điều này, bản thân Claude trở thành một cố vấn tiết kiệm token. Nó sẽ bắt đầu nói với bạn, "Có lẽ đã đến lúc chuyển sang một chat mới."

𝟮. Truyền ngữ cảnh nén với Mega Prompts

Nếu bạn thực sự muốn mang ngữ cảnh của chat hiện tại sang chat tiếp theo, hãy nói điều này ở cuối chat:

"Tôi đang chuyển sang một chat mới; hãy đưa cho tôi một prompt mà tôi có thể sử dụng để khởi động lại phiên này mà không mất bất kỳ ngữ cảnh nào từ cuộc trò chuyện này."

Claude sẽ tạo ra một prompt duy nhất nén toàn bộ ngữ cảnh. Chỉ cần dán nó vào đầu một chat mới để khởi động lại với một chat nhẹ nhàng mà không mất ngữ cảnh.

Nguyên tắc vàng cần nhớ:

"Ba chat ngắn" tiết kiệm token hơn rất nhiều so với "một chat cực dài." Nếu nghi ngờ, hãy mở một chat mới. Chỉ riêng điều này sẽ giảm đáng kể tần suất chạm giới hạn.

■ 𝗕𝘂̛𝗼̛́𝗰 𝟯: 𝗕𝗼̣̂ 𝗻𝗵𝗼̛́ 𝗽𝗵𝘂̀ 𝗵𝗼̛̣𝗽 (Lưu trữ bộ nhớ của Claude trong các tệp bên ngoài)

Một trong những điểm yếu lớn nhất của Claude là nó quên ngữ cảnh.

Theo mặc định, Claude hầu như không nhớ bất kỳ sở thích hoặc hướng dẫn nào trước đây của bạn. Kết quả là, điều gì xảy ra:

・Giải thích cùng một điều kiện tiên quyết mỗi lần → Tiêu tốn token cho việc đó

・Lặp lại những sai lầm đã được sửa trong quá khứ → Tiêu tốn token trong tương tác để sửa lại chúng

・Quên sở thích và đưa ra đầu ra không cần thiết → Tiêu tốn token cho việc làm lại

Miles giới thiệu một cách để phá vỡ triệt để vòng luẩn quẩn này.

Phương pháp rất đơn giản. Tạo một thư mục trên desktop và đặt hai tệp Markdown bên trong.

𝗜𝗻𝘀𝘁𝗿𝘂𝗰𝘁𝗶𝗼𝗻𝘀.𝗠𝗗 (Bảng Hướng dẫn)

Một tệp để viết các quy tắc và hướng dẫn cố định cho Claude.

Cấu trúc ví dụ:

・## Bạn là ai → Vai trò / Chuyên môn của bạn

・## Bạn làm gì → Hành vi mong đợi từ Claude

・## Quy tắc → Các quy tắc bạn muốn nó tuân thủ nghiêm ngặt

Và đặt dòng quan trọng nhất ở đây:

"Cập nhật Memory.MD với các sở thích của tôi theo thời gian."

Với hướng dẫn này, Claude sẽ tự động ghi các sở thích và chỉnh sửa đã học được trong cuộc trò chuyện vào tệp thứ hai.

𝗠𝗲𝗺𝗼𝗿𝘆.𝗠𝗗 (Tệp Bộ nhớ)

Một tệp hoạt động như "bộ não thứ hai" của Claude. Nó càng thông minh hơn khi bạn sử dụng nó nhiều hơn.

Cấu trúc ví dụ:

・## Sở thích → Phong cách, định dạng ưa thích

・## Chỉnh sửa → Các vấn đề đã được sửa trong quá khứ

・## Mẫu → Các mẫu được sử dụng lặp đi lặp lại

Ví dụ cụ thể: Nếu bạn nói "đừng dùng dấu gạch ngang em" một lần, Claude sẽ ghi lại nó trong tệp này. Từ lần sau, dấu gạch ngang em sẽ không xuất hiện dù bạn không nói gì. Nếu bạn nói "dùng ■ thay vì # cho tiêu đề," điều đó cũng sẽ được ghi lại.

Chỉ cần đính kèm thư mục này vào Claude Code/Cowork là hoàn tất thiết lập. Vì Claude đọc nội dung của thư mục mỗi lần, ngữ cảnh được duy trì qua các chat.

Miles nói rằng một khi bạn bắt đầu sử dụng nó, bạn không thể quay lại. Việc token dành cho việc giải thích lại trở thành con số không là một điều khá quan trọng về mặt trải nghiệm.

■ 𝗕𝘂̛𝗼̛́𝗰 𝟰: 𝗫𝗲̂́𝗽 𝗰𝗵𝗼̂̀𝗻𝗴 𝘃𝗮̀ 𝗰𝗵𝗼̣𝗻 𝗺𝗼̂ 𝗵𝗶̀𝗻𝗵 (Tiết kiệm 90% bằng cách sử dụng mô hình phù hợp)

"Sử dụng Opus 4.7 cho mọi thứ là một sự lãng phí hoàn toàn," Miles khẳng định.

Một sai lầm phổ biến mà mọi người mắc phải là nghĩ, "Tôi sẽ ổn nếu luôn dùng mô hình thông minh nhất." Nhưng điều này giống như "lái Ferrari đi mua đồ ở cửa hàng tiện lợi gần nhà."

Miles thực hành "Phương pháp leo thang."

Haiku (tác vụ nhẹ) → Sonnet (tác vụ trung bình) → Opus (tác vụ nặng / hoàn thiện cuối cùng)

Bắt đầu theo thứ tự này và chỉ chuyển sang mô hình cao hơn khi khả năng thực sự không đủ. Theo kinh nghiệm của anh ấy, 90% tác vụ có thể được xử lý đầy đủ bởi các mô hình khác ngoài Opus, và Opus chỉ thực sự cần thiết cho 10% còn lại.

Tinh chỉnh thêm:

・𝗘𝘅𝘁𝗲𝗻𝗱𝗲𝗱 𝗧𝗵𝗶𝗻𝗸𝗶𝗻𝗴: Thường thì tắt nó đi. Chỉ bật cho các tác vụ suy luận phức tạp hoặc toán học. Khi bật, mức tiêu thụ token tăng vọt, vì vậy chỉ sử dụng khi thực sự cần thiết.

・𝗦𝘁𝘆𝗹𝗲𝘀 (Cài đặt Phong cách): Bạn có thể chuyển sang phong cách "Ngắn gọn" từ màn hình chính của Claude. Chỉ riêng điều này làm cho câu trả lời ngắn và đơn giản, giảm đáng kể token đầu ra. Nhiều người thậm chí không biết tính năng này tồn tại.

・𝗟𝗼𝘄 𝗘𝗳𝗳𝗼𝗿𝘁: Trong Claude Code, bạn có thể chọn chế độ nỗ lực "Thấp". Điều này đủ cho các tác vụ đơn giản và tăng tốc độ xử lý.

Và đừng quên các lựa chọn khác ngoài Claude. Đối với các tác vụ đơn giản như tìm kiếm tin tức, nghiên cứu và tóm tắt, các mô hình mã nguồn mở miễn phí hoặc rẻ như Kimi hoặc DeepSeek là đủ. Hãy dành hạn ngạch của Claude cho "những thứ chỉ Claude mới làm được."

■ 𝗕𝘂̛𝗼̛́𝗰 𝟱: 𝗣𝗵𝗮̂𝗻 𝘁𝗮́𝗰𝗵 𝗰𝗼̂𝗻𝗴 𝗰𝘂̣ (Sử dụng hạn ngạch cho từng công cụ một cách chiến lược)

Một sự thật mà hầu hết mọi người chưa nhận thấy: mỗi công cụ Claude có các thông số sử dụng độc lập riêng.

Cụ thể:

・Claude Code / Claude Chat → Chia sẻ cùng một hạn ngạch sử dụng của gói

・Claude Design → Hạn ngạch hoàn toàn riêng biệt

Nếu bạn không biết cơ chế này, điều gì sẽ xảy ra? Ví dụ, bạn yêu cầu Claude Code tạo một bản mô phỏng thiết kế UI. Điều này tiêu tốn hạn ngạch Code/Chat. Nhưng công cụ riêng biệt, Claude Design, có hạn ngạch chưa sử dụng hoàn toàn còn lại. Nếu bạn thực hiện cùng một tác vụ thiết kế trong Claude Design, bạn có thể tránh tiêu tốn hạn ngạch Code/Chat hoàn toàn.

Sẽ tiết kiệm chi phí nhất khi sử dụng mỗi công cụ cho mục đích thiết kế ban đầu của nó.

Các quy tắc của Miles:

・Code → Claude Code

・Thiết kế → Claude Design

・Đối thoại / Phân tích → Claude Chat

・Sử dụng mỗi công cụ cho việc nó giỏi, và đừng ép nó làm việc nó không giỏi.

■ 𝗠𝗲̣𝗼 𝗯𝗼̂̉ 𝘀𝘂𝗻𝗴 (Tổng hợp các kỹ thuật bổ sung bạn có thể sử dụng ngay)

・Mua tín dụng bổ sung: Trước khi cân nhắc nâng cấp gói như $20→$100, có một lựa chọn là mua thêm vài đô la tín dụng bổ sung. Điều này là đủ khi bạn hơi thiếu một chút vào cuối tháng.

・Claude Skills: Xây dựng các kỹ năng để tự động hóa các tác vụ lặp đi lặp lại. Thay vì giải thích cùng một quy trình mỗi lần, hãy lưu nó dưới dạng một kỹ năng để thực thi bằng một lệnh duy nhất.

・Theo dõi Sử dụng: Tạo thói quen kiểm tra trạng thái sử dụng thường xuyên. Trong Claude Code, bạn có thể kiểm tra ngay bằng lệnh /Usage. Nếu bạn biết "còn lại bao nhiêu %," bạn có thể điều chỉnh cách sử dụng.

・Phần Tổng quan: Một tính năng mới được thêm vào, nơi bạn có thể thấy một bảng điều khiển với tổng quan về trạng thái sử dụng trong nháy mắt.

・Thay đổi hành vi khi sắp chạm giới hạn: Khi còn dưới 20%, hãy chủ động chuyển đổi chế độ bằng cách chuyển sang Haiku, tắt Extended Thinking, giữ chat ngắn, v.v.

■ Tổng kết: Đạt được không giới hạn trong 3 tuần với phương pháp này

Miles nói rằng anh ấy đã không chạm phải giới hạn token nào trong ba tuần kể từ khi thực hành 5 bước này. Mà không cần thay đổi gói $200/tháng của mình.

Để tổng hợp các điểm:

・Bước 1: Lập kế hoạch với Haiku, thực thi với Opus. Giảm 67% chỉ bằng cách tách biệt các giai đoạn.

・Bước 2: Giữ chat ngắn và quản lý bằng Projects. 3 chat ngắn > 1 chat dài.

・Bước 3: Ngoại hóa bộ nhớ với Memory.MD để đưa chi phí giải thích lại về 0.

・Bước 4: Sử dụng phương pháp leo thang để gửi 90% cho các mô hình khác ngoài Opus. Cũng tận dụng cài đặt Styles và Effort.

・Bước 5: Hiểu sự khác biệt về hạn ngạch sử dụng cho từng công cụ và sử dụng đúng công cụ cho đúng công việc.

Thành thật mà nói, triển vọng chi phí sử dụng AI trở nên rẻ hơn trong tương lai là rất ít. Thay vào đó, khi các mô hình trở nên hiệu suất cao hơn, giá token đơn vị có xu hướng tăng. Đó là lý do tại sao việc học "cách sử dụng đúng" ngay bây giờ dẫn đến tiết kiệm lâu dài.

Như Miles nói, vấn đề không phải là "gói cước rẻ," mà là "cách sử dụng sai." Nếu sử dụng đúng, một cuộc sống không chạm giới hạn trên gói cước hiện tại của bạn là hoàn toàn có thể đạt được.

Dành cho những ai thấy bài viết này hữu ích dù chỉ một chút.

𝗖𝗹𝗮𝘂𝗱𝗲 𝗖𝗼𝗱𝗲 𝗦𝘁𝘂𝗱𝗶𝗼 @ 𝗝𝗮𝗽𝗮𝗻 (@ClaudeCode_love) là một tài khoản được điều hành bởi ba người đam mê Claude Code.

Chúng tôi đăng bài hàng ngày về việc sử dụng CLI thực tế và tự động hóa.

Hiện đang đồng phát triển một AI agent với một công ty niêm yết.

Các bài đăng thông thường của chúng tôi 👇

・Ví dụ phát triển sản phẩm thực tế sử dụng Claude Code và Claude

・Tổ chức việc sử dụng Claude Code / Vibe Coding / xu hướng phát triển

・Thông tin mới nhất về Claude Code từ nước ngoài

Từ triết lý phát triển đến thiết kế, triển khai và cải tiến,

chúng tôi tổng hợp thông tin nước ngoài và thông tin chính thống để đưa các sản phẩm hoạt động ra thế giới, không chỉ "hoàn thành việc tạo ra chúng."

Nếu bạn quan tâm, hãy theo dõi và xem thử nhé 👀 Tôi nghĩ nó sẽ có ích đấy!

Use YouMind to read viral articles deeply

Bài viết viral gần đây

10 cuốn sách mọi kỹ sư AI nên đọc vào năm 2026

Tại sao các tập đoàn lớn tại Nhật Bản chọn Gemini và Copilot làm nền tảng

Tin tức IDOLiSH7 số 5: Tổng hợp thông tin ứng dụng

Hướng dẫn toàn tập thiết lập Claude Cowork: Vận hành doanh nghiệp một mình

FSD V14 LITE: Đánh giá của tôi

7 rào cản tại chỗ và về mặt tổ chức khi triển khai AI Agent