
आपकी Claude लिमिट जल्दी खत्म होने का असली कारण: यूज़र्स के लिए एक ज़रूरी लेख
AI features
- Views
- 1.1M
- Likes
- 380
- Reposts
- 105
- Comments
- 13
- Bookmarks
- 785
TL;DR
यह गाइड बताती है कि Claude की लिमिट्स संचयी टोकन प्रोसेसिंग (cumulative token processing) के कारण खत्म होती हैं। इसमें टोकन लीक को रोकने के 9 विशिष्ट तरीके दिए गए हैं, जिसमें CLAUDE.md को छोटा करना और यूसेज को ऑप्टिमाइज़ करने के लिए /context जैसे डायग्नोस्टिक कमांड्स का उपयोग करना शामिल है।
Reading the हिन्दी translation
आपकी Claude सीमा जल्दी भरने का असली कारण
सीधे मुद्दे पर आते हैं, ऐसा नहीं है कि मॉडल कम बुद्धिमान हो गया है; बल्कि मेरा ओवरहेड बढ़ गया है।
लेकिन "CLAUDE.md को छोटा करें" जैसी सतही सलाह काफी नहीं है। इसे सच में रोकने के लिए आपको यह समझना होगा कि टोकन लीक क्यों होते हैं।
(मुझे पता है कि कई AI शुरुआती इसे पढ़ने के बाद भी नहीं समझ पाएंगे। इसलिए, मैं अंत में ऐसे प्रॉम्प्ट शामिल करूंगा जिनका उपयोग शुरुआती भी कर सकते हैं। अगर आप नहीं समझते हैं, तो बस कॉपी और पेस्ट करें। मुझे उम्मीद है कि आपको इससे कुछ तो मिलेगा ही!)
मुख्य मानसिक मॉडल (यह 90% समस्या समझाता है)
ट्रांसफॉर्मर हर बार पूरी बातचीत को शुरू से दोबारा प्रोसेस करते हैं।
जब आप 30वां संदेश भेजते हैं, तो मॉडल जो पढ़ता है वह है: → संदेश 1–29 + सभी प्रतिक्रियाएं → सभी टूल कॉल परिणाम (PR डिफ़, फ़ाइल रीड, आदि) → CLAUDE.md → सिस्टम प्रॉम्प्ट → MCP टूल परिभाषाएं → + 30वां संदेश।
यह जवाब देना शुरू करने से पहले यह सब प्रोसेस करता है।
दूसरे शब्दों में, 30वां टर्न पहले टर्न का 30 गुना नहीं है; यह हर बार संचित सभी चीज़ों का योग है, जिसे हर बार प्रोसेस किया जाता है।
यहाँ से शुरू करके, आप स्वाभाविक रूप से देख सकते हैं कि टोकन क्यों लीक हो रहे हैं।
9 छेद जहाँ से टोकन लीक होते हैं
मूल स्रोत में प्रतिशत आंकड़े (14%, 13%...) एक व्यक्ति के मामले से हैं और सामान्यीकरण करना जोखिम भरा है। मैंने उन्हें प्रभाव के अनुसार पुनर्व्यवस्थित किया है।
- CLAUDE.md ब्लोट — प्रभाव ★★★ यह तब तक हर संदेश में शामिल होता है जब तक सत्र सक्रिय है। यह लेज़ी-लोडेड नहीं है। 200 संदेशों के लिए 200 बार प्रोसेस किया गया 2,000-टोकन का CLAUDE.md = 400,000 टोकन। आधिकारिक सिफारिश: 200 लाइनों से कम, 300–600 टोकन।
- बातचीत का संचय — प्रभाव ★★★ बिल्कुल वैसा ही जैसा मानसिक मॉडल बताता है। यह अजीब नहीं है कि दो या तीन PR समीक्षाओं के बाद आपकी सीमा 60% भर जाती है; यह संरचनात्मक है।
- टूल आउटपुट का संचय — प्रभाव ★★★ एक बार PR डिफ़ लाने पर हजारों लाइनें इंजेक्ट हो सकती हैं। यदि आप 20 फ़ाइलें पढ़ते हैं, तो वे 20 फ़ाइलें अंत तक आपका पीछा करती हैं। यह अन्य स्रोतों में उल्लिखित "हुक" से अधिक सटीक है।
- कैश मिस — प्रभाव ★★ प्रॉम्प्ट कैशिंग स्वचालित रूप से लागू होती है लेकिन यदि एक निश्चित (छोटी) अवधि के लिए उपयोग नहीं की जाती है तो समाप्त हो जाती है। यदि आप सत्र के बीच में बार-बार CLAUDE.md संपादित करते हैं, तो कैश हर बार टूट जाता है।
- स्किल्स — प्रभाव ★ (मूल स्रोत थोड़ा गलत था) स्किल्स केवल कॉल करने पर लोड होती हैं। केवल मेटाडेटा रहता है। असली समस्या तब है जब एक सिंगल स्किल ब्लोटेड हो जाती है।
- "जस्ट इन केस" MCP — प्रभाव ★★ यदि 12 MCP कनेक्टेड हैं, तो 12 टूल परिभाषाएं हर कॉल में इंजेक्ट होती हैं। केवल वे 3 रखें जिनका आप वास्तव में उपयोग करते हैं, उन्हें सक्रिय रखें।
- एक्सटेंडेड थिंकिंग डिफ़ॉल्ट — प्रभाव ★★★ आमतौर पर डिफ़ॉल्ट रूप से ON होता है। बजट हजारों टोकन तक जा सकता है (आउटपुट के रूप में बिल किया जाता है)। सिर्फ एक वेरिएबल नाम बदलने के लिए डीप रीज़निंग चालू रखना वास्तव में बर्बादी है।
- गलत उत्तर को अंत तक देखना — प्रभाव ★★ यदि उत्तर पटरी से उतर जाता है, तो इसे तुरंत रोकें। यदि आप नहीं रोकते हैं, तो वह पूरा आउटपुट अगले टर्न के लिए इनपुट बन जाता है।
- संचयी सूचनाएं/मेटा संदेश — प्रभाव ★ छोटा, लेकिन जब ये जमा होते हैं तो "शांत अपराधी" बन जाते हैं।
ठीक करने से पहले हमेशा निदान करें
यह वह हिस्सा है जो लोग चूक जाते हैं।
/context ← संदर्भ में आइटम के अनुसार टोकन दिखाता है
/usage ← सत्र उपयोग
/cost ← संचयी API लागत
/context को सिर्फ एक बार चलाने से 5 सेकंड के भीतर आपके मामले में #1 लीक दिख जाएगा।
अधिकांश परिणाम समान होते हैं:
- संचित टूल आउटपुट अब तक #1 हैं
- CLAUDE.md
- MCP टूल परिभाषाएं
मापे बिना चीजों को काटना प्रयास की बर्बादी है। पहले अपना #1 लीक काटें।
30-सेकंड बेसलाइन (एक बार करें और हो गया)
✅ अपने CLAUDE.md को 200 लाइनों से कम करें
✅ केवल 3 सक्रिय MCP रखें
✅ एक्सटेंडेड थिंकिंग → डिफ़ॉल्ट OFF, केवल जरूरत पड़ने पर उपयोग करें
✅ .claudeignore → बड़ी जनरेटेड फ़ाइलों को बाहर करें
✅ एक कार्य पूरा होने पर /clear को आदत बनाएं
7 उन्नत टिप्स जिनका बड़ा प्रभाव है
① प्लान मोड को डिफ़ॉल्ट बनाएं
महंगे कार्यों से पहले Shift+Tab × 2। कोड को छुए बिना योजना बनाएं। "इसे रीफैक्टर करें" जैसे व्यापक अनुरोधों के लिए इसका उपयोग करें। यह बर्बाद प्रयास पर जलाए गए टोकन के अनुपात को सबसे अधिक कम करता है।
② मॉडल स्विचिंग
80% रोजमर्रा की कोडिंग → Sonnet; जटिल तर्क → Opus। कमांड: /model sonnet, /model opus।
OpusPlan मोड: Opus के साथ योजना बनाएं, Sonnet के साथ कार्यान्वित करें। लागत में 60% बचा सकता है।
③ चुनिंदा रूप से सबएजेंट का उपयोग करें
वे एक अलग संदर्भ में चलते हैं और मुख्य सत्र में केवल एक सारांश लौटाते हैं। केवल भारी अन्वेषण के लिए उपयोग करें—छोटे कार्यों के लिए, ओवरहेड वास्तव में अधिक होता है। नियम: केवल तब जब (सहेजा गया मुख्य संदर्भ > सबएजेंट प्रारंभ लागत)।
④ /compact का सक्रिय रूप से उपयोग करें
80% संदर्भ चेतावनी की प्रतीक्षा करना बहुत देर हो चुकी है। यह सभी शोर को संपीड़ित करेगा।
सही उपयोग:
- प्रत्येक कार्य चरण के अंत में
- /compact को कॉल करने से पहले एक सारांश गाइड दें: "केवल X, Y, Z रखें और बाकी को हटा दें।"
⑤ सटीक फ़ाइल रेंज के साथ पढ़ें
❌ "पूरे कोडबेस को देखें"
✅ "केवल src/auth.js की लाइनें 50-120 देखें और एरर हैंडलिंग में सुधार करें"
अंतर बहुत बड़ा है।
⑥ सत्र हैंडऑफ नोट्स
लंबा सत्र समाप्त करने से पहले:
"अब तक किए गए कार्य, अगले कदम और महत्वपूर्ण निर्णयों को 500 टोकन से कम में सारांशित करें।"
इसे अगले सत्र में पेस्ट करें = पूरे इतिहास को पुनर्निर्मित करने की तुलना में दस गुना कम टोकन।
⑦ बार-बार होने वाले कार्यों के लिए स्लैश कमांड का उपयोग करें
बार-बार आने वाले पैटर्न (PR समीक्षा प्रारूप, परीक्षण नियम) को हर बार प्राकृतिक भाषा में न समझाएं। उन्हें स्लैश कमांड के रूप में परिभाषित करें → नियतात्मक और हल्का। उन्हें CLAUDE.md में डालने की तुलना में कहीं अधिक कुशल।
सामान्य नुकसान
❌ "सब कुछ CLAUDE.md में डालना सुविधाजनक है" → आप हर टर्न में वह लागत चुकाते हैं।
❌ "सबएजेंट हमेशा सस्ते होते हैं" → वास्तव में छोटे कार्यों के लिए अधिक महंगे होते हैं।
❌ "बड़ा संदर्भ इसे स्मार्ट बनाता है" → उल्टा। संदर्भ सड़न के कारण गुणवत्ता गिरती है।
❌ "Pro से Max में अपग्रेड करने से समस्या हल हो जाएगी" → वही अक्षमता सिर्फ 5 गुना अधिक महंगी हो जाती है। पहले लीक को ठीक करें।
टोकन की बर्बादी एक सीमा की समस्या नहीं, बल्कि एक व्यवहारिक समस्या है।
/context को एक बार चलाना, CLAUDE.md को डाइट करना, MCP को व्यवस्थित करना और एक्सटेंडेड थिंकिंग को नियंत्रित करना अधिकांश समस्याओं को हल कर देगा।
याद रखें कि हर संदेश पिछले सभी संदेशों की लागत चुकाता है, और आप देखेंगे कि कहाँ काटना है।
शुरुआती लोगों के लिए प्रॉम्प्ट
Claude Code उपयोगकर्ताओं के लिए (स्व-निदान और डाइट सेट)
/context कमांड चलाएं और परिणामों का विश्लेषण करें।
फिर, क्रम में निम्नलिखित करें:
1. मुझे शीर्ष 1-3 आइटम बताएं जो सबसे अधिक टोकन ले रहे हैं।
2. प्रत्येक के लिए, एक विशिष्ट कार्रवाई सुझाएं जो मैं अभी उन्हें कम करने के लिए कर सकता हूं (अनुमानित टोकन बचत सहित)।
3. मेरा CLAUDE.md पढ़ें और 200 लाइनों / 600 टोकन से कम का डाइटेड वर्जन सुझाएं। सिफारिश करें कि हटाए गए आइटम कहाँ ले जाएं (Skills? Slash कमांड? या बस हटा दें?)।
4. अंत में, एक्सटेंडेड थिंकिंग या MCP टूल संगठन जैसे अन्य लीक की जांच करें।
चूंकि मैं एक शुरुआती हूं, कृपया परिणामों को "अभी करें / जब समय हो तब करें" में प्राथमिकता दें।
Claude.ai Chat उपयोगकर्ताओं के लिए (बातचीत स्वच्छता)
जब बातचीत लंबी हो जाए और प्रतिक्रियाएं धीमी हो जाएं या सीमाएं दबाव डालें तो कॉपी और पेस्ट करें:
इस बातचीत से केवल वास्तव में महत्वपूर्ण जानकारी को 500 वर्णों से कम में सारांशित करें। परीक्षण और त्रुटि, विषयांतर और अभिवादन को बाहर करें; केवल मुख्य निष्कर्षों, निर्णयों और अगले कदमों पर ध्यान केंद्रित करें। मैं इसे एक नई बातचीत शुरू करने के लिए कॉपी करूंगा, इसलिए इसे इस तरह व्यवस्थित करें कि मैं इसे वहां पेस्ट करने के तुरंत बाद काम फिर से शुरू कर सकूं।
बस ये दो प्रॉम्प्ट प्राप्त करने से आपको टोकन बर्बाद किए बिना AI का अधिक आराम से उपयोग करने में मदद मिलेगी! अगर यह मददगार था, तो कृपया इसे लाइक करें!
अगर आपके कोई अन्य प्रश्न हैं, तो कृपया उन्हें टिप्पणियों में छोड़ दें~


