토큰 사용량 67% 절감: Claude Code를 위한 "단계적 확장(Escalation)" 전략

"으악, 또 Claude Code 사용량 제한에 걸렸어! 😭 너무 짜다! 💢" 이런 생각 드시죠? 하지만 문제는 사용 방법에 있을지도 몰라요? → 그럼 어떻게 해야 하죠? → 이 글을 읽어보세요 → 토큰 절약 방법을 이해하세요 → 모두가 문제 해결!!!!

자, 시작해볼까요!!!

Claude Code를 사용하면서 이런 경험 해보셨나요?

・프롬프트 중간에 갑자기 "사용량 제한에 도달했습니다" 메시지

・월 20만원 요금제인데도 몇 시간마다 속도 제한에 걸림

・제한이 걱정돼서 집중력과 생산성이 떨어짐

・제한을 피하려고 요금제를 업그레이드해야 하나 매달 고민

・중요한 작업 중간에 멈추고 결국 다른 AI로 달려감

해외에서 67만 팔로워를 보유한 탑 AI 인플루언서 Miles Deutscher(@milesdeutscher)의 글이 현재 335만 개의 좋아요를 받으며 화제입니다 😳

그 자신도 월 20만원짜리 Anthropic 요금제를 사용하면서 매일 속도 제한에 걸렸다고 합니다. 하지만 "Claude의 기본 메커니즘을 재이해"한 후, 지난 3주 동안 단 한 번도 토큰 제한에 걸리지 않았다고 해요.

오늘은 그 내용을 알기 쉽게 풀어드리겠습니다 👇

원본 게시물: https://x.com/milesdeutscher/status/2049618781841031551

■ 𝗦𝘁𝗲𝗽 𝟭: 𝗣𝗹𝗮𝗻𝗻𝗶𝗻𝗴 (계획과 실행을 완전히 분리하라)

Miles가 가장 먼저 지적하는 것은: "Claude Opus로 브레인스토밍하지 마세요."

많은 분들이 이렇게 하실 겁니다. 아이디어가 떠오르면 Opus에 던져서 의견을 주고받죠. 어느새 30분이 지나고 제한에 걸립니다. 익숙한 상황이죠?

Miles가 깊이 파고들어 발견한 사실은 이것입니다:

"텍스트 채팅 자체는 그렇게 많은 토큰을 소모하지 않습니다. 실제로 많이 소모하는 것은 코딩, 빌드, 디자인 같은 실행형 작업입니다."

즉, 무엇을 만들지 생각하는 단계(Planning)와 실제로 만드는 단계(Execution)를 명확히 분리하기만 해도 고비용 모델의 소모를 획기적으로 줄일 수 있습니다.

Miles는 구체적인 비교를 제시합니다. 같은 금융 추적 앱을 만드는 두 사람의 경우:

A: 계획에 2분만 쓰고 약한 디자인으로 빌드 시작. 결과: 3번 재작업.

B: 계획에 20분을 써서 디자인을 확실히 하고 한 번에 빌드 완료.

B는 이 작업 하나만으로 약 67%의 토큰을 절약했습니다. 비용으로는 1.5달러 차이입니다. 하루에 여러 작업을 한다고 생각하면 한 달에 수십 달러 차이가 됩니다.

Claude Code를 사용하는 분들을 위해, Shift+Tab×2로 진입하는 "Plan Mode"가 바로 이 철학을 구현한 기능입니다.

Plan Mode에서 Claude는 코드를 작성하지 않고 디자인과 계획에 집중합니다. 즉, 실행 토큰을 소모하지 않고 아키텍처와 정책을 확립할 수 있습니다.

더 나아가 Miles의 스타일은 계획 단계 자체를 더 저렴한 모델에 맡기는 것입니다. Opus로 아이디어를 주고받는 대신 Haiku로 충분합니다. Haiku는 브레인스토밍에 충분히 똑똑하고 비용은 훨씬 저렴합니다.

실천 포인트:

・아이디어 구상, 브레인스토밍, 디자인은 Haiku로

・디자인이 확실해지고 "빌드할 준비"가 되었을 때만 Opus로 전환

・Claude Code에서 Plan Mode(Shift+Tab×2)를 매번 사용하는 습관 들이기

・"생각하는 시간"을 아낄수록 "재작업"이 늘어나서 총손실이 발생

■ 𝗦𝘁𝗲𝗽 𝟮: 𝗖𝗵𝗮𝘁 𝗟𝗲𝗻𝗴𝘁𝗵 (채팅 길이가 모든 것을 지배한다)

Miles는 긴 채팅이 조용한 킬러라고 말합니다. 이것은 많은 사람들이 간과하는 가장 큰 함정입니다.

메커니즘은 이렇습니다: 메시지를 보낼 때마다 Claude는 해당 채팅의 전체 컨텍스트를 다시 읽습니다. 즉:

・채팅이 10개 메시지일 때: 10개 메시지 분량의 토큰을 읽음

・채팅이 100개 메시지일 때: 100개 메시지 분량의 토큰을 읽음

채팅이 길어질수록 메시지당 비용이 기하급수적으로 증가합니다. 그리고 비용만 문제가 아닙니다. 오래된 정보가 섞이면서 Claude 출력의 품질 자체도 떨어집니다. 관련 없는 과거 컨텍스트에 끌려서 엉뚱한 답변이 늘어납니다.

Miles는 두 가지 해결책을 제시합니다.

𝟭. 𝗣𝗿𝗼𝗷𝗲𝗰𝘁𝘀 활용하기

같은 유형의 작업을 반복한다면, 하나의 긴 채팅 대신 Project 내에 여러 개의 하위 채팅을 만드세요.

Miles 자신도 X용 Project를 만들어 새 글을 쓸 때마다 새 채팅을 엽니다. Project 설정(Instructions)은 모든 채팅에서 공유되므로 매번 "저는 이런 사람이고, 이런 스타일로 써주세요"라고 다시 설명할 필요가 없습니다.

더 스마트한 방법은 Project Instructions에 이 문장을 포함시키는 것입니다:

"계정 사용량을 절약하려고 한다는 점을 인지하고 있어. 답변은 간결하게 하고, 적절할 때 새 채팅을 시작해야 하는 시기나 토큰 사용량을 줄이는 데 도움이 되는 팁을 알려줘."

이것만으로 Claude 자체가 토큰 절약 어드바이저가 됩니다. "새 채팅으로 이동할 때가 된 것 같습니다"라고 말하기 시작할 것입니다.

𝟮. Mega Prompts로 압축된 컨텍스트 전송

현재 채팅의 컨텍스트를 다음 채팅으로 반드시 이어가고 싶다면, 채팅 끝에 이렇게 말하세요:

"새 채팅으로 이동할 거야. 이 대화의 컨텍스트를 잃지 않고 이 세션을 재시작할 수 있는 프롬프트를 만들어줘."

Claude는 전체 컨텍스트를 압축한 단일 프롬프트를 생성합니다. 새 채팅 시작 부분에 이것을 붙여넣기만 하면 컨텍스트 손실 없이 가벼운 채팅으로 재시작할 수 있습니다.

기억해야 할 황금률:

"짧은 채팅 세 개"가 "하나의 초장기 채팅"보다 토큰 효율이 압도적으로 좋습니다. 의심스러우면 새 채팅을 여세요. 이것만으로 제한에 걸리는 빈도가 획기적으로 줄어듭니다.

■ 𝗦𝘁𝗲𝗽 𝟯: 𝗣𝗿𝗼𝗽𝗲𝗿 𝗠𝗲𝗺𝗼𝗿𝘆 (Claude의 기억을 외부 파일에 저장하기)

Claude의 가장 큰 약점 중 하나는 컨텍스트를 잊어버린다는 것입니다.

기본적으로 Claude는 사용자의 선호도나 과거 지시사항을 거의 기억하지 못합니다. 그 결과 어떤 일이 벌어질까요?

・매번 같은 전제 조건을 설명 → 그만큼 토큰 소모

・과거에 수정했던 실수를 반복 → 다시 수정하는 상호작용에서 토큰 소모

・선호도를 잊어버리고 불필요한 출력 생성 → 재촬영에 토큰 소모

Miles는 이 악순환을 근본적으로 깨는 방법을 소개합니다.

방법은 간단합니다. 데스크탑에 폴더를 만들고 그 안에 두 개의 Markdown 파일을 넣으세요.

𝗜𝗻𝘀𝘁𝗿𝘂𝗰𝘁𝗶𝗼𝗻𝘀.𝗠𝗗 (지시 시트)

Claude에 대한 영구적인 규칙과 지시사항을 작성하는 파일입니다.

예시 구조:

・## Who you are → 당신의 역할/전문성

・## What you do → Claude에게 기대하는 행동

・## Rules → 엄격히 따르길 원하는 규칙

그리고 여기에 가장 중요한 한 줄을 넣으세요:

"시간이 지남에 따라 내 선호도를 Memory.MD에 업데이트해."

이 지시를 통해 Claude는 대화 중에 학습한 사용자의 선호도와 수정 사항을 자동으로 두 번째 파일에 기록합니다.

𝗠𝗲𝗺𝗼𝗿𝘆.𝗠𝗗 (메모리 파일)

Claude의 "두 번째 두뇌" 역할을 하는 파일입니다. 사용하면 사용할수록 똑똑해집니다.

예시 구조:

・## Preferences → 선호하는 스타일, 형식

・## Corrections → 과거에 수정한 사항

・## Patterns → 반복적으로 사용하는 패턴

구체적인 예: "em 대시를 사용하지 마"라고 한 번 말하면 Claude는 이 파일에 기록합니다. 다음부터는 아무 말도 하지 않아도 em 대시가 나타나지 않습니다. "제목에 # 대신 ■를 사용해"라고 말하면 그것도 기록됩니다.

이 폴더를 Claude Code/Cowork에 첨부하기만 하면 설정이 완료됩니다. Claude는 매번 폴더 내용을 읽기 때문에 채팅 간에 컨텍스트가 유지됩니다.

Miles는 한 번 사용하기 시작하면 돌아갈 수 없다고 말합니다. 재설명에 소비되던 토큰이 0이 된다는 것은 경험적으로 상당히 중요합니다.

■ 𝗦𝘁𝗲𝗽 𝟰: 𝗠𝗼𝗱𝗲𝗹 𝗦𝘁𝗮𝗰𝗸𝗶𝗻𝗴 & 𝗦𝗲𝗹𝗲𝗰𝘁𝗶𝗼𝗻 (모델을 적절히 사용해서 90% 절약하기)

"모든 것에 Opus 4.7을 사용하는 것은 완전한 낭비입니다."라고 Miles는 단언합니다.

사람들이 흔히 하는 실수는 "항상 가장 똑똑한 모델을 사용하면 괜찮겠지"라고 생각하는 것입니다. 하지만 이것은 "동네 편의점에 페라리를 타고 가는 것"과 같습니다.

Miles는 "에스컬레이션 방법"을 실천합니다.

Haiku (가벼운 작업) → Sonnet (중간 작업) → Opus (무거운 작업/최종 마무리)

이 순서로 시작하고, 성능이 정말 부족할 때만 더 높은 모델로 전환하세요. 그의 경험에 따르면 작업의 90%는 Opus 외의 모델로도 충분히 처리할 수 있고, Opus가 정말 필요한 것은 나머지 10%뿐입니다.

더 세부적인 조정:

・𝗘𝘅𝘁𝗲𝗻𝗱𝗲𝗱 𝗧𝗵𝗶𝗻𝗸𝗶𝗻𝗴: 평소에는 꺼두세요. 복잡한 추론이나 수학 작업에만 켜세요. 켜면 토큰 소모가 급증하므로 정말 필요할 때만 사용하세요.

・𝗦𝘁𝘆𝗹𝗲𝘀 (스타일 설정): Claude 홈 화면에서 "간결" 스타일로 전환할 수 있습니다. 이것만으로 답변이 짧고 간단해져서 출력 토큰이 크게 줄어듭니다. 많은 사람들이 이 기능의 존재조차 모릅니다.

・𝗟𝗼𝘄 𝗘𝗳𝗳𝗼𝗿𝘁: Claude Code에서 "낮음" 노력 모드를 선택할 수 있습니다. 간단한 작업에는 충분하며 처리 속도도 빨라집니다.

그리고 Claude 외의 옵션도 잊지 마세요. 뉴스 검색, 리서치, 요약 같은 간단한 작업에는 Kimi나 DeepSeek 같은 무료 또는 저렴한 오픈소스 모델로 충분합니다. Claude의 할당량은 "Claude만 할 수 있는 일"을 위해 아껴두세요.

■ 𝗦𝘁𝗲𝗽 𝟱: 𝗧𝗼𝗼𝗹 𝗦𝗽𝗹𝗶𝘁𝘁𝗶𝗻𝗴 (각 도구의 할당량을 전략적으로 사용하기)

대부분의 사람들이 눈치채지 못한 사실: 각 Claude 도구에는 독립적인 사용량 매개변수가 있습니다.

구체적으로:

・Claude Code / Claude Chat → 동일한 요금제 사용량 할당량 공유

・Claude Design → 완전히 별도의 할당량

이 메커니즘을 모르면 어떤 일이 벌어질까요? 예를 들어, Claude Code로 UI 디자인 목업을 만듭니다. 이것은 Code/Chat 할당량을 소모합니다. 하지만 별도 도구인 Claude Design은 사용하지 않은 할당량이 완전히 남아 있습니다. 같은 디자인 작업을 Claude Design에서 하면 Code/Chat 할당량을 전혀 소모하지 않을 수 있습니다.

각 도구를 원래 설계된 목적에 맞게 사용하는 것이 가장 비용 효율적입니다.

Miles의 규칙:

・코딩 → Claude Code

・디자인 → Claude Design

・대화/분석 → Claude Chat

・각 도구가 잘하는 일에 사용하고, 하지 못하는 일을 억지로 시키지 마세요.

■ 𝗕𝗼𝗻𝘂𝘀 𝗧𝗶𝗽𝘀 (바로 사용할 수 있는 추가 기술 모음)

・추가 크레딧 구매: 2만원→10만원 같은 요금제 업그레이드를 고려하기 전에, 몇 달러어치의 추가 크레딧만 구매하는 옵션이 있습니다. 월말에 조금 부족할 때 충분합니다.

・Claude Skills: 반복 작업을 자동화하는 스킬을 만드세요. 매번 같은 절차를 설명하는 대신 스킬로 저장해서 한 번의 명령으로 실행하세요.

・Usage Tracking: 사용량 상태를 정기적으로 확인하는 습관을 들이세요. Claude Code에서는 /Usage 명령으로 즉시 확인할 수 있습니다. "몇 %가 남았는지" 알면 사용 방식을 조정할 수 있습니다.

・Overview Section: 새로 추가된 기능으로, 사용량 상태를 한눈에 볼 수 있는 대시보드를 제공합니다.

・제한에 가까워지면 행동 변경: 20% 미만으로 남았을 때는 Haiku로 전환하고, Extended Thinking을 끄고, 채팅을 짧게 유지하는 등 의식적으로 모드를 전환하세요.

■ 요약: 이 방법으로 3주 동안 제로 제한 달성

Miles는 이 5단계를 실천한 후 3주 동안 단 한 번도 토큰 제한에 걸리지 않았다고 말합니다. 월 20만원 요금제를 바꾸지 않고 말이죠.

포인트를 정리하면:

・Step 1: 계획은 Haiku로, 실행은 Opus로. 단계를 분리하는 것만으로 67% 감소.

・Step 2: 채팅은 짧게 유지하고 Projects로 관리. 짧은 채팅 3개 > 긴 채팅 1개.

・Step 3: Memory.MD로 기억을 외부화하여 재설명 비용 제로화.

・Step 4: 에스컬레이션 방법으로 90%를 Opus 외 모델로 처리. Styles와 Effort 설정도 활용.

・Step 5: 각 도구의 사용량 할당량 차이를 이해하고, 적재적소에 도구 사용.

솔직히 말해서, AI 사용 비용이 앞으로 더 저렴해질 전망은 희박합니다. 오히려 모델이 고성능화될수록 토큰 단가가 상승하는 경향이 있습니다. 그렇기 때문에 지금 "올바른 사용법"을 배우는 것이 장기적인 비용 절감으로 직결됩니다.

Miles가 말했듯이, 문제는 "요금제가 싼 것"이 아니라 "사용법이 잘못된 것"입니다. 올바르게 사용하면 현재 요금제로도 제한 없는 삶이 충분히 가능합니다.

이 글이 조금이라도 도움이 되셨다면.

𝗖𝗹𝗮𝘂𝗱𝗲 𝗖𝗼𝗱𝗲 𝗦𝘁𝘂𝗱𝗶𝗼 @ 𝗝𝗮𝗽𝗮𝗻 (@ClaudeCode_love)은 Claude Code 매니아 3명이 운영하는 계정입니다.

CLI 실전 활용과 자동화에 관한 정보를 매일 게시합니다.

현재 상장 기업과 AI 에이전트를 공동 개발 중입니다.

평소 게시물 👇

・Claude Code와 Claude를 사용한 실제 제품 개발 사례

・Claude Code 활용법 / Vibe Coding / 개발 트렌드 정리

・해외 Claude Code 최신 정보

개발 철학부터 디자인, 구현, 개선까지,

"만들어서 끝"이 아니라 실제로 작동하는 제품을 세상에 내놓기 위해

해외 및 1차 정보를 정리합니다.

관심 있으시면 팔로우하고 확인해보세요 👀 도움이 될 거라고 생각합니다!

토큰 사용량 67% 절감: Claude Code를 위한 "단계적 확장(Escalation)" 전략

Use YouMind to read viral articles deeply

최근 바이럴 아티클

2026 년 6 월 30 일, 목성이 사자자리로 이동합니다: 행운을 잡는 방법

ORACLE: Polymarket에서 거래하는 공식 AI 에이전트

스크롤링은 낮은 가치를 지닌 행동입니다

Claude Code로 유료 광고를 운영하는 방법: 메가 가이드

ORACLE: Polymarket 공식 AI 에이전트 트레이딩

FSD V14 LITE: 사용 후기