Riduci i token del 67%: la strategia di "escalation" per Claude Code

"Uffa, ho di nuovo superato il limite di utilizzo di Claude Code! 😭 Che tirchio! 💢" Capisco la sensazione. Ma forse il problema è il tuo metodo di utilizzo? → Quindi cosa dovresti fare? → Leggi questo articolo → Comprendi i metodi per risparmiare token → Problema risolto per tutti!!!!

Entriamo nel vivo!!!

Hai mai vissuto questa situazione usando Claude Code?

・Vedere all'improvviso "Limite di utilizzo raggiunto" mentre stai scrivendo un prompt

・Raggiungere i limiti di frequenza ogni poche ore nonostante un abbonamento da 200 $/mese

・Perdere concentrazione e produttività perché sei preoccupato dei limiti

・Preoccuparti ogni mese se dovresti passare a un abbonamento superiore per evitare i limiti

・Fermarti a metà di un lavoro importante e finire per passare a un'altra IA

Un articolo di Miles Deutscher (@milesdeutscher), un top influencer IA con 670.000 follower all'estero, sta diventando virale con 3,35 milioni di like 😳

Lui stesso raggiungeva i limiti di frequenza ogni giorno mentre usava l'abbonamento Anthropic da 200 $/mese. Tuttavia, "ricomprendendo il meccanismo fondamentale di Claude", non ha più raggiunto un limite di token una volta nelle ultime tre settimane.

Oggi analizzerò questi contenuti in modo facile da capire 👇

Post originale qui: https://x.com/milesdeutscher/status/2049618781841031551

■ 𝗦𝘁𝗲𝗽 𝟭: 𝗣𝗶𝗮𝗻𝗶𝗳𝗶𝗰𝗮𝘇𝗶𝗼𝗻𝗲 (Separa completamente pianificazione ed esecuzione)

Miles sottolinea innanzitutto: "Non fare brainstorming con Claude Opus."

Molte persone probabilmente lo fanno. Hai un'idea, la lanci a Opus per confrontarti. In un attimo sono passati 30 minuti e hai raggiunto il limite. Ti suona familiare?

Il fatto che Miles ha scoperto grazie a un'analisi approfondita è questo:

"La chat testuale di per sé non consuma così tanti token. Quelli che li consumano davvero sono i compiti di esecuzione come coding, costruzione e progettazione."

In altre parole, separando chiaramente la fase di pensare a cosa creare (Pianificazione) dalla fase di crearlo effettivamente (Esecuzione), puoi ridurre drasticamente il consumo dei modelli ad alto costo.

Miles fornisce un confronto specifico. Nel caso di due persone che creano la stessa app di monitoraggio finanziario:

Persona A: Dedica solo 2 minuti alla pianificazione e inizia a costruire con un design debole. Risultato: 3 rifacimenti.

Persona B: Dedica 20 minuti alla pianificazione per consolidare il design e completa la costruzione in 1 volta sola.

La Persona B ha risparmiato circa il 67% dei token solo per questo compito. Una differenza di costo di 1,50 $. Considerando che ci sono molti compiti in una giornata, diventa una differenza di decine di dollari al mese.

Per chi usa Claude Code, la "Modalità Piano" che si attiva premendo Shift+Tab×2 è esattamente la funzione che incarna questa filosofia.

In Modalità Piano, Claude si concentra su design e pianificazione senza scrivere codice. Questo significa che puoi consolidare l'architettura e le policy senza consumare token di esecuzione.

Inoltre, lo stile di Miles è di lasciare la fase di pianificazione stessa a modelli più economici. Invece di confrontarti con Opus, Haiku è sufficiente. Haiku è abbastanza intelligente per il brainstorming e il costo è di ordini di grandezza inferiore.

Punti pratici:

・Fai ideazione, brainstorming e design con Haiku

・Passa a Opus solo dopo che il design è solido e sei "pronto a costruire"

・Prendi l'abitudine di usare la Modalità Piano (Shift+Tab×2) ogni volta in Claude Code

・Più risparmi sul "tempo di pensiero", più aumentano i "rifacimenti", portando a una perdita totale

■ 𝗦𝘁𝗲𝗽 𝟮: 𝗟𝘂𝗻𝗴𝗵𝗲𝘇𝘇𝗮 𝗱𝗲𝗹𝗹𝗮 𝗖𝗵𝗮𝘁 (La lunghezza della chat governa tutto)

Miles dice che le chat lunghe sono killer silenziosi. Questa è la trappola più grande che molti trascurano.

Il meccanismo è questo: Ogni volta che invii un messaggio, Claude rilegge l'intero contesto all'interno di quella chat. Questo significa:

・Quando la chat è di 10 messaggi: Legge token equivalenti a 10 messaggi

・Quando la chat è di 100 messaggi: Legge token equivalenti a 100 messaggi

Più la chat diventa lunga, più il costo per messaggio aumenta esponenzialmente. E il costo non è l'unico problema. Con l'accumularsi di informazioni vecchie, la qualità dell'output di Claude stessa si degrada. Viene influenzato da contesti passati irrilevanti e le risposte fuori tema aumentano.

Miles ha due soluzioni.

𝟭. Utilizza i 𝗣𝗿𝗼𝗴𝗲𝘁𝘁𝗶

Se fai ripetutamente lo stesso tipo di compito, crea più sotto-chat all'interno di un Progetto invece di una lunga chat.

Miles stesso ha un Progetto per scrivere su X e apre una nuova chat ogni volta che scrive un nuovo articolo. Poiché le impostazioni del Progetto (Istruzioni) sono condivise tra tutte le chat, non c'è bisogno di rispiegare "Sono questo tipo di persona, scrivi in questo stile" ogni volta.

Ancora più intelligente è includere questa frase nelle Istruzioni del Progetto:

"Sii consapevole del fatto che sto cercando di risparmiare l'utilizzo dell'account. Sii conciso nelle tue risposte e, quando appropriato, consigliami quando dovrei iniziare una nuova chat o qualsiasi altro suggerimento che possa aiutarmi a ridurre l'uso dei token."

Con questo, Claude stesso diventa un consulente per il risparmio di token. Inizierà a dirti: "Probabilmente è ora di passare a una nuova chat."

𝟮. Trasferimento di contesto compresso con Mega Prompt

Se vuoi assolutamente trasferire il contesto della chat corrente a quella successiva, dì questo alla fine della chat:

"Mi sto spostando in una nuova chat; dammi un prompt che possa usare per riavviare questa sessione senza perdere nessuno del nostro contesto da questa conversazione."

Claude genererà un singolo prompt che comprime l'intero contesto. Basta incollarlo all'inizio di una nuova chat per riavviare con una chat leggera senza perdita di contesto.

La regola d'oro da ricordare:

"Tre chat brevi" sono enormemente più efficienti in termini di token di "una chat ultra-lunga". In caso di dubbio, apri una nuova chat. Solo questo ridurrà drasticamente la frequenza con cui raggiungi i limiti.

■ 𝗦𝘁𝗲𝗽 𝟯: 𝗠𝗲𝗺𝗼𝗿𝗶𝗮 𝗣𝗲𝗿𝘀𝗶𝘀𝘁𝗲𝗻𝘁𝗲 (Persisti la memoria di Claude in file esterni)

Uno dei più grandi punti deboli di Claude è che dimentica il contesto.

Per impostazione predefinita, Claude non ricorda quasi nessuna delle tue preferenze o istruzioni passate. Di conseguenza, cosa succede:

・Spiegare gli stessi prerequisiti ogni volta → Consumare token per questo

・Ripetere errori che erano stati corretti in passato → Consumare token nell'interazione per correggerli di nuovo

・Dimenticare le preferenze e dare output non necessari → Consumare token per rifacimenti

Miles introduce un modo per rompere fondamentalmente questo circolo vizioso.

Il metodo è semplice. Crea una cartella sul tuo desktop e inserisci due file Markdown al suo interno.

𝗜𝘀𝘁𝗿𝘂𝘇𝗶𝗼𝗻𝗶.𝗠𝗗 (Foglio Istruzioni)

Un file per scrivere regole e istruzioni permanenti per Claude.

Struttura di esempio:

・## Chi sei → Il tuo ruolo/competenze

・## Cosa fai → Comportamento atteso da Claude

・## Regole → Regole che vuoi segua rigorosamente

E metti la riga più importante qui:

"Aggiorna Memoria.MD con le mie preferenze nel tempo."

Con questa istruzione, Claude scriverà automaticamente le tue preferenze e correzioni apprese durante la conversazione nel secondo file.

𝗠𝗲𝗺𝗼𝗿𝗶𝗮.𝗠𝗗 (File Memoria)

Un file che funge da "secondo cervello" di Claude. Diventa più intelligente più lo usi.

Struttura di esempio:

・## Preferenze → Stili, formati preferiti

・## Correzioni → Questioni corrette in passato

・## Pattern → Pattern usati ripetutamente

Esempio specifico: Se dici "non usare i trattini em" una volta, Claude lo registra in questo file. Dalla volta successiva, i trattini em non appariranno anche se non dici nulla. Se dici "usa ■ invece di # per le intestazioni", anche quello verrà registrato.

Basta allegare questa cartella a Claude Code/Cowork per completare la configurazione. Poiché Claude legge i contenuti della cartella ogni volta, il contesto viene mantenuto tra le chat.

Miles dice che una volta che inizi a usarlo, non puoi più tornare indietro. Il fatto che i token spesi per le rispiegazioni diventino zero è piuttosto significativo in termini di esperienza.

■ 𝗦𝘁𝗲𝗽 𝟰: 𝗣𝗶𝗹𝗮 𝗱𝗶 𝗠𝗼𝗱𝗲𝗹𝗹𝗶 𝗲 𝗦𝗲𝗹𝗲𝘇𝗶𝗼𝗻𝗲 (Risparmia il 90% usando i modelli in modo appropriato)

"Usare Opus 4.7 per tutto è uno spreco totale," afferma Miles.

Un errore comune che le persone fanno è pensare: "Starò bene se uso sempre il modello più intelligente." Ma questo è come "prendere una Ferrari per andare al negozio sotto casa."

Miles pratica il "Metodo di Escalation."

Haiku (compiti leggeri) → Sonnet (compiti medi) → Opus (compiti pesanti/finitura finale)

Inizia in questo ordine e passa a un modello superiore solo quando la capacità è veramente insufficiente. Nella sua esperienza, il 90% dei compiti può essere gestito sufficientemente da modelli diversi da Opus, e Opus è veramente necessario solo per il restante 10%.

Ulteriori ottimizzazioni:

・𝗣𝗲𝗻𝘀𝗶𝗲𝗿𝗼 𝗘𝘀𝘁𝗲𝘀𝗼: Tienilo spento normalmente. Attivalo solo per ragionamenti complessi o compiti matematici. Quando è attivo, il consumo di token aumenta, quindi usalo solo quando veramente necessario.

・𝗦𝘁𝗶𝗹𝗶 (Impostazioni di Stile): Puoi passare allo stile "Conciso" dalla schermata principale di Claude. Solo questo rende le risposte brevi e semplici, riducendo significativamente i token di output. Molte persone non sanno nemmeno che questa funzione esista.

・𝗕𝗮𝘀𝘀𝗼 𝗦𝗳𝗼𝗿𝘇𝗼: In Claude Code, puoi selezionare la modalità di sforzo "Basso". È sufficiente per compiti semplici e aumenta la velocità di elaborazione.

E non dimenticare le opzioni diverse da Claude. Per compiti semplici come ricerca di notizie, analisi e riassunti, modelli open source gratuiti o economici come Kimi o DeepSeek sono sufficienti. Riserva la quota di Claude per "cose che solo Claude può fare."

■ 𝗦𝘁𝗲𝗽 𝟱: 𝗗𝗶𝘃𝗶𝘀𝗶𝗼𝗻𝗲 𝗱𝗲𝗴𝗹𝗶 𝗦𝘁𝗿𝘂𝗺𝗲𝗻𝘁𝗶 (Usa strategicamente le quote per ogni strumento)

Un fatto che la maggior parte delle persone non ha notato: ogni strumento di Claude ha i propri parametri di utilizzo indipendenti.

Nello specifico:

・Claude Code / Claude Chat → Condividono la stessa quota di utilizzo del piano

・Claude Design → Quota completamente separata

Se non conosci questo meccanismo, cosa succede? Per esempio, fai creare a Claude Code un mockup di design UI. Questo consuma la quota Code/Chat. Ma lo strumento separato, Claude Design, ha la sua quota inutilizzata completamente rimasta. Se fai lo stesso compito di design in Claude Design, puoi evitare di consumare del tutto la quota Code/Chat.

È più conveniente usare ogni strumento per lo scopo per cui è stato originariamente progettato.

Le regole di Miles:

・Coding → Claude Code

・Design → Claude Design

・Dialogo/Analisi → Claude Chat

・Usa ogni strumento per ciò in cui è bravo, e non forzarlo a fare ciò che non è.

■ 𝗦𝘂𝗴𝗴𝗲𝗿𝗶𝗺𝗲𝗻𝘁𝗶 𝗕𝗼𝗻𝘂𝘀 (Raccolta di tecniche aggiuntive che puoi usare subito)

・Acquista crediti aggiuntivi: Prima di considerare un upgrade del piano come da 20 $ a 100 $, c'è l'opzione di acquistare solo pochi dollari di crediti aggiuntivi. Questo è sufficiente quando sei un po' a corto alla fine del mese.

・Claude Skills: Crea skill per automatizzare compiti ripetitivi. Invece di spiegare la stessa procedura ogni volta, salvala come skill per eseguirla con un comando.

・Monitoraggio dell'Utilizzo: Prendi l'abitudine di controllare regolarmente lo stato di utilizzo. In Claude Code, puoi controllare immediatamente con il comando /Usage. Se sai "quale % è rimasta", puoi regolare come lo usi.

・Sezione Panoramica: Una funzione appena aggiunta dove puoi vedere una dashboard con una panoramica dello stato di utilizzo a colpo d'occhio.

・Cambia comportamento quando ti avvicini ai limiti: Quando rimane meno del 20%, cambia consapevolmente modalità passando a Haiku, spegnendo il Pensiero Esteso, mantenendo le chat brevi, ecc.

■ Riepilogo: Zero limiti raggiunti per 3 settimane con questo metodo

Miles dice di non aver raggiunto un limite di token una volta nelle tre settimane da quando pratica questi 5 passaggi. Senza cambiare il suo abbonamento da 200 $/mese.

Per organizzare i punti:

・Step 1: Pianificazione con Haiku, esecuzione con Opus. Riduzione del 67% solo separando le fasi.

・Step 2: Mantieni le chat brevi e gestiscile con i Progetti. 3 chat brevi > 1 chat lunga.

・Step 3: Esternalizza la memoria con Memoria.MD per azzerare i costi di rispiegazione.

・Step 4: Usa il metodo di escalation per inviare il 90% a modelli diversi da Opus. Utilizza anche le impostazioni di Stile e Sforzo.

・Step 5: Comprendi la differenza nelle quote di utilizzo per ogni strumento e usa lo strumento giusto per il lavoro giusto.

Onestamente, la prospettiva che i costi di utilizzo dell'IA diventino più economici in futuro è scarsa. Piuttosto, man mano che i modelli diventano più performanti, i prezzi unitari dei token tendono ad aumentare. Ecco perché imparare il "modo corretto di usare" ora porta direttamente a risparmi a lungo termine.

Come dice Miles, il problema non è che il "piano è economico", ma che l'"utilizzo è sbagliato". Se usato correttamente, una vita senza raggiungere limiti con il tuo piano attuale è del tutto realizzabile.

Per chi ha trovato questo articolo anche solo leggermente utile.

𝗖𝗹𝗮𝘂𝗱𝗲 𝗖𝗼𝗱𝗲 𝗦𝘁𝘂𝗱𝗶𝗼 @ 𝗚𝗶𝗮𝗽𝗽𝗼𝗻𝗲 (@ClaudeCode_love) è un account gestito da tre appassionati di Claude Code.

Pubblichiamo quotidianamente esempi pratici di utilizzo da riga di comando e automazione.

Attualmente co-sviluppiamo un agente AI con un'azienda quotata in borsa.

I nostri post abituali 👇

・Esempi reali di sviluppo prodotto usando Claude Code e Claude

・Organizzazione dell'utilizzo di Claude Code / Vibe Coding / tendenze di sviluppo

・Ultime informazioni su Claude Code dall'estero

Dalla filosofia di sviluppo al design, implementazione e miglioramento,

riassumiamo informazioni estere e primarie per portare prodotti funzionanti nel mondo, non solo "finire di crearli."

Se sei interessato, per favore seguici e dai un'occhiata 👀 Penso che sarà vantaggioso!

Use YouMind to read viral articles deeply

Articoli virali recenti

Guida completa alla configurazione di Claude Cowork: gestisci la tua attività in autonomia

10 libri che ogni ingegnere AI dovrebbe leggere nel 2026

Come gestire le campagne pubblicitarie a pagamento con Claude Code: La guida definitiva

ArsenalOS™: La spina dorsale digitale della produzione per la difesa moderna

Perché le grandi aziende giapponesi scelgono Gemini e Copilot come base

FSD V14 LITE: La mia recensione