
Il vero motivo per cui raggiungi rapidamente il limite di Claude: una lettura obbligatoria per gli utenti
AI features
- Views
- 1.1M
- Likes
- 380
- Reposts
- 105
- Comments
- 13
- Bookmarks
- 785
TL;DR
Questa guida rivela che i limiti di Claude vengono raggiunti a causa dell'elaborazione cumulativa dei token. Fornisce 9 metodi specifici per bloccare le perdite di token, tra cui snellire CLAUDE.md e utilizzare comandi diagnostici come /context per ottimizzare l'utilizzo.
Reading the ITALIANO translation
Il Vero Motivo per Cui il Tuo Limite di Claude si Esaurisce Velocemente
Per andare dritti al punto, non è che il modello sia diventato più stupido; è che il mio overhead è cresciuto.
Ma consigli superficiali come "accorcia CLAUDE.md" non bastano. Devi capire la struttura del perché si consuma per fermarlo davvero.
(So che molti principianti dell'AI potrebbero non capire nemmeno dopo aver letto questo. Quindi, includerò dei prompt alla fine che anche i principianti possono usare. Se non capisci, copia e incolla e basta. Spero che tu riesca a trarne almeno qualcosa!)
Modello Mentale Principale (Spiega il 90% del Problema)
I Transformer rielaborano l'intera conversazione dall'inizio a ogni turno.
Quando invii il 30° messaggio, ciò che il modello legge è: → Messaggi 1–29 + tutte le risposte → Tutti i risultati delle chiamate agli strumenti (diff delle PR, letture di file, ecc.) → CLAUDE.md → Prompt di Sistema → Definizioni degli strumenti MCP → + il 30° messaggio.
Elabora tutto questo prima ancora di iniziare a rispondere.
In altre parole, il 30° turno non è 30 volte il 1° turno; è la somma di tutto ciò che è stato accumulato, elaborato ogni singola volta.
Partendo da qui, puoi capire naturalmente perché i token si consumano.
9 Buchi da Cui Fuoriescono i Token
Le percentuali nella fonte originale (14%, 13%...) provengono dal caso di una singola persona e sono rischiose da generalizzare. Le ho riorganizzate per impatto.
- Gonfiore di CLAUDE.md — Impatto ★★★ È incluso in ogni messaggio finché la sessione è attiva. Non viene caricato in modo lazy. Un CLAUDE.md da 2.000 token elaborato 200 volte per 200 messaggi = 400.000 token. Raccomandazione ufficiale: Sotto le 200 righe, 300–600 token.
- Accumulo della Conversazione — Impatto ★★★ Esattamente come descrive il modello mentale. Non è strano che il tuo limite si esaurisca al 60% dopo due o tre revisioni di PR; è strutturale.
- Accumulo dell'Output degli Strumenti — Impatto ★★★ Recuperare un diff di una PR una volta può iniettare migliaia di righe. Se leggi 20 file, quei 20 file ti seguono fino alla fine. Questo è più accurato degli "hook" menzionati in altre fonti.
- Cache Miss — Impatto ★★ Il caching dei prompt viene applicato automaticamente ma scade se non viene utilizzato per un certo periodo (breve). Se modifichi frequentemente CLAUDE.md a metà sessione, la cache si rompe ogni volta.
- Skills — Impatto ★ (La fonte originale era leggermente sbagliata) Le Skills vengono caricate solo quando vengono chiamate. Solo i metadati rimangono. Il vero problema è quando una singola skill diventa gonfia.
- MCP "Per Ogni Evenienza" — Impatto ★★ Se sono connessi 12 MCP, 12 definizioni di strumenti vengono iniettate in ogni chiamata. Tieni attivi solo i 3 che usi effettivamente.
- Default del Pensiero Esteso — Impatto ★★★ Di solito ATTIVO per impostazione predefinita. Il budget può arrivare a decine di migliaia di token (fatturati come output). È un vero spreco se il ragionamento profondo è attivo solo per cambiare un nome di variabile.
- Guardare una Risposta Sbagliata Fino alla Fine — Impatto ★★ Se la risposta va fuori strada, fermala immediatamente. Se non lo fai, quell'intero output diventa input per il turno successivo.
- Notifiche/Messaggi Meta Cumulativi — Impatto ★ Piccolo, ma diventano "colpevoli silenziosi" quando si accumulano.
Diagnostica Sempre Prima di Risolvere
Questa è la parte che la gente dimentica.
/context ← Mostra i token per elemento nel contesto
/usage ← Utilizzo della sessione
/cost ← Costo API cumulativo
Eseguire /context una sola volta ti mostrerà la perdita #1 nel tuo caso entro 5 secondi.
La maggior parte dei risultati è simile:
- Gli output accumulati degli strumenti sono la schiacciante #1
- CLAUDE.md
- Definizioni degli strumenti MCP
Tagliare le cose senza misurare è uno sforzo sprecato. Taglia prima la tua perdita #1.
Baseline in 30 Secondi (Fallo una Volta e Hai Finito)
✅ Metti a dieta il tuo CLAUDE.md a meno di 200 righe
✅ Tieni solo 3 MCP attivi
✅ Pensiero Esteso → Default OFF, usalo solo quando necessario
✅ .claudeignore → Escludi i file generati di grandi dimensioni
✅ Abituati a usare /clear una volta completata un'attività
7 Suggerimenti Avanzati con Grande Impatto
① Imposta la Modalità Plan come Predefinita
Shift+Tab × 2 prima di attività costose. Pianifica senza toccare il codice. Usalo per richieste ampie come "Refactoring di questo." Riduce in modo più significativo il rapporto di token bruciati in sforzi sprecati.
② Cambio di Modello
80% Codifica Quotidiana → Sonnet; Ragionamento Complesso → Opus. Comandi: /model sonnet, /model opus.
Modalità OpusPlan: Pianifica con Opus, implementa con Sonnet. Può far risparmiare il 60% sui costi.
③ Usa i Subagenti in Modo Selettivo
Eseguono in un contesto separato e restituiscono solo un riepilogo alla sessione principale. Usali solo per esplorazioni pesanti—per attività piccole, l'overhead è in realtà maggiore. Regola: Solo quando (contesto principale risparmiato > costo di avvio del subagente).
④ Usa `/compact` in Modo Proattivo
Aspettare l'avviso di contesto all'80% è troppo tardi. Comprimerà tutto il rumore.
Uso corretto:
- Alla fine di ogni fase dell'attività
- Fornisci una guida di riepilogo prima di chiamare
/compact: "Mantieni solo X, Y, Z e scarta il resto."
⑤ Leggi con Intervalli di File Precise
❌ "Guarda l'intero codebase"
✅ "Guarda solo le righe 50-120 di src/auth.js e migliora la gestione degli errori"
La differenza è enorme.
⑥ Note di Passaggio di Sessione
Prima di terminare una sessione lunga:
"Riassumi il lavoro svolto finora, i prossimi passi e le decisioni importanti in meno di 500 token."
Incolla questo nella sessione successiva = decine di volte meno token che ricostruire l'intera cronologia.
⑦ Usa i Comandi Slash per Attività Ripetitive
Non spiegare schemi frequenti (formati di revisione PR, regole di test) in linguaggio naturale ogni volta. Definiscili come comandi Slash → Deterministici e leggeri. Molto più efficiente che metterli in CLAUDE.md.
Insidie Comuni
❌ "È comodo mettere tutto in CLAUDE.md" → Paghi quel costo a ogni turno.
❌ "I subagenti sono sempre più economici" → In realtà più costosi per attività piccole.
❌ "Un contesto più ampio lo rende più intelligente" → Opposto. La qualità cala a causa del deterioramento del contesto.
❌ "Passare da Pro a Max risolverà il problema" → La stessa inefficienza diventa semplicemente 5 volte più costosa. Prima sistema le perdite.
Lo spreco di token è un problema comportamentale, non un problema di limite.
Eseguire /context una volta, mettere a dieta CLAUDE.md, organizzare gli MCP e controllare il Pensiero Esteso risolverà la maggior parte dei problemi.
Ricorda che ogni messaggio paga il costo di tutti i messaggi precedenti, e capirai dove tagliare.
Prompt per Principianti
Per utenti di Claude Code (Autodiagnosi e messa a dieta)
Esegui il comando /context e analizza i risultati.
Poi, fai quanto segue in ordine:
1. Dimmi i primi 1-3 elementi che occupano più token.
2. Per ciascuno, suggerisci un'azione specifica che posso intraprendere subito per ridurli (includendo una stima del risparmio di token).
3. Leggi il mio CLAUDE.md e suggerisci una versione ridotta a meno di 200 righe / 600 token. Raccomanda dove spostare gli elementi rimossi (Skills? Comandi Slash? O semplicemente eliminarli?).
4. Infine, controlla altre perdite come il Pensiero Esteso o l'organizzazione degli strumenti MCP.
Dato che sono un principiante, per favore dai priorità ai risultati in "Fai subito / Fai quando hai tempo."
Per utenti di Claude.ai Chat (Igiene della Conversazione)
Copia e incolla quando la conversazione diventa lunga e le risposte rallentano o i limiti si fanno sentire:
Riassumi solo le informazioni veramente importanti di questa conversazione in meno di 500 caratteri. Escludi tentativi ed errori, divagazioni e saluti; concentrati solo sulle conclusioni principali, le decisioni e i prossimi passi. Copierò questo per iniziare una nuova conversazione, quindi organizzalo in modo che io possa riprendere il lavoro immediatamente dopo averlo incollato lì.
Solo ottenere questi due prompt ti aiuterà a usare l'AI più comodamente senza sprecare token! Se è stato utile, per favore metti un mi piace!
Se hai altre domande, lasciale pure nei commenti~


