Der wahre Grund, warum Ihr Claude-Limit schnell erreicht ist: Ein Muss für alle Nutzer

Der wahre Grund, warum dein Claude-Limit schnell voll ist

Um direkt zum Punkt zu kommen: Es liegt nicht daran, dass das Modell dümmer geworden ist, sondern daran, dass mein Overhead gewachsen ist.

Aber oberflächliche Tipps wie „CLAUDE.md kürzen“ reichen nicht. Du musst die Struktur verstehen, warum es leckt, um es wirklich zu stoppen.

(Ich weiß, dass viele KI-Anfänger das vielleicht auch nach dem Lesen nicht verstehen. Deshalb füge ich am Ende Prompts ein, die auch Anfänger verwenden können. Wenn du es nicht verstehst, kopiere sie einfach und füge sie ein. Ich hoffe, du nimmst zumindest etwas daraus mit!)

Kern-Mentalmodell (Das erklärt 90% davon)

Transformer verarbeiten die gesamte Konversation von Anfang an bei jeder Runde neu.

Wenn du die 30. Nachricht sendest, liest das Modell: → Nachrichten 1–29 + alle Antworten → Alle Tool-Call-Ergebnisse (PR-Diffs, Dateiauslesungen usw.) → CLAUDE.md → System-Prompt → MCP-Tool-Definitionen → + die 30. Nachricht.

Es verarbeitet all dies, bevor es überhaupt mit der Antwort beginnt.

Mit anderen Worten: Die 30. Runde ist nicht 30-mal die 1. Runde; es ist die Summe von allem, was akkumuliert wurde, jedes Mal neu verarbeitet.

Von hier aus kannst du natürlich sehen, warum Token lecken.

9 Löcher, durch die Token lecken

Die Prozentangaben in der Originalquelle (14%, 13%...) stammen aus einem Einzelfall und sind riskant zu verallgemeinern. Ich habe sie nach Auswirkung neu geordnet.

CLAUDE.md-Aufblähung — Auswirkung ★★★ Es wird in jede Nachricht eingefügt, solange die Sitzung aktiv ist. Es wird nicht lazy-geladen. Ein CLAUDE.md mit 2.000 Token, 200-mal verarbeitet für 200 Nachrichten = 400.000 Token. Offizielle Empfehlung: Unter 200 Zeilen, 300–600 Token.

Gesprächsakkumulation — Auswirkung ★★★ Genau wie das mentale Modell beschreibt. Es ist nicht seltsam, dass dein Limit nach zwei oder drei PR-Reviews zu 60% voll ist; es ist strukturell bedingt.

Tool-Output-Akkumulation — Auswirkung ★★★ Ein einziges Abrufen eines PR-Diffs kann Tausende von Zeilen einfügen. Wenn du 20 Dateien liest, folgen dir diese 20 Dateien bis zum Ende. Das ist genauer als die „Hooks“, die in anderen Quellen erwähnt werden.

Cache-Fehler — Auswirkung ★★ Prompt-Caching wird automatisch angewendet, läuft aber ab, wenn es für einen bestimmten (kurzen) Zeitraum nicht genutzt wird. Wenn du CLAUDE.md während der Sitzung häufig bearbeitest, bricht der Cache jedes Mal.

Skills — Auswirkung ★ (Originalquelle war leicht falsch) Skills werden nur geladen, wenn sie aufgerufen werden. Nur Metadaten bleiben bestehen. Das eigentliche Problem ist, wenn ein einzelner Skill aufgebläht wird.

„Just in Case“ MCP — Auswirkung ★★ Wenn 12 MCPs verbunden sind, werden 12 Tool-Definitionen in jeden Aufruf eingefügt. Behalte nur die 3, die du tatsächlich verwendest, als aktiv.

Extended Thinking Standard — Auswirkung ★★★ Normalerweise standardmäßig EIN. Das Budget kann bis zu Zehntausende von Token betragen (als Output abgerechnet). Es ist eine echte Verschwendung, wenn tiefes Denken nur zum Ändern eines Variablennamens eingeschaltet ist.

Eine falsche Antwort bis zum Ende ansehen — Auswirkung ★★ Wenn die Antwort vom Kurs abkommt, stoppe sie sofort. Wenn nicht, wird dieser gesamte Output zum Input für die nächste Runde.

Kumulative Benachrichtigungen/Meta-Nachrichten — Auswirkung ★ Klein, aber sie werden zu „stillen Übeltätern“, wenn sie sich ansammeln.

Immer zuerst diagnostizieren, dann beheben

Das ist der Teil, den die Leute übersehen.

/context ← Zeigt Token nach Element im Kontext an

/usage ← Sitzungsnutzung

/cost ← Kumulative API-Kosten

Ein einziges Ausführen von /context zeigt dir innerhalb von 5 Sekunden das #1-Leck in deinem Fall.

Die meisten Ergebnisse sind ähnlich:

Akkumulierte Tool-Outputs sind mit Abstand #1
CLAUDE.md
MCP-Tool-Definitionen

Dinge ohne Messung zu kürzen, ist verschwendete Mühe. Kürze zuerst dein #1-Leck.

30-Sekunden-Baseline (Einmal machen und fertig)

✅ Reduziere dein CLAUDE.md auf unter 200 Zeilen

✅ Behalte nur 3 aktive MCPs

✅ Extended Thinking → Standardmäßig AUS, nur bei Bedarf verwenden

✅ .claudeignore → Große generierte Dateien ausschließen

✅ Mache /clear zur Gewohnheit, sobald eine Aufgabe erledigt ist

7 fortgeschrittene Tipps mit großer Wirkung

① Mach den Plan-Modus zum Standard

Shift+Tab × 2 vor teuren Aufgaben. Plane, ohne Code zu berühren. Verwende dies für breite Anfragen wie „Refaktorisiere dies.“ Es reduziert am stärksten den Anteil der Token, die für verschwendete Mühe verbrannt werden.

② Modellwechsel

80% Alltags-Coding → Sonnet; Komplexes Denken → Opus. Befehle: /model sonnet, /model opus.

OpusPlan-Modus: Plane mit Opus, implementiere mit Sonnet. Kann 60% der Kosten sparen.

③ Subagenten gezielt einsetzen

Sie laufen in einem separaten Kontext und geben nur eine Zusammenfassung an die Hauptsitzung zurück. Nur für schwere Erkundungen verwenden – bei kleinen Aufgaben ist der Overhead tatsächlich größer. Regel: Nur wenn (gesparter Hauptkontext > Startkosten des Subagenten).

④ /compact proaktiv verwenden

Auf die 80%-Kontextwarnung zu warten, ist zu spät. Es wird das gesamte Rauschen komprimieren.

Richtige Verwendung:

Am Ende jeder Aufgabenphase
Gib vor dem Aufruf von /compact eine Zusammenfassungsanleitung: „Behalte nur X, Y, Z und verwerfe den Rest.“

⑤ Mit präzisen Dateibereichen lesen

❌ „Sieh dir die gesamte Codebasis an“

✅ „Sieh dir nur die Zeilen 50-120 von src/auth.js an und verbessere die Fehlerbehandlung“

Der Unterschied ist enorm.

⑥ Sitzungsübergabe-Notizen

Vor dem Beenden einer langen Sitzung:

Fasse die bisher geleistete Arbeit, die nächsten Schritte und wichtige Entscheidungen in unter 500 Token zusammen.

Füge dies in die nächste Sitzung ein = zigmal weniger Token als die Rekonstruktion der gesamten Historie.

⑦ Slash-Befehle für wiederkehrende Aufgaben verwenden

Erkläre häufige Muster (PR-Review-Formate, Testregeln) nicht jedes Mal in natürlicher Sprache. Definiere sie als Slash-Befehle → Deterministisch und leichtgewichtig. Viel effizienter, als sie in CLAUDE.md zu setzen.

Häufige Fallstricke

❌ „Es ist praktisch, alles in CLAUDE.md zu setzen“ → Du zahlst diese Kosten jede Runde.

❌ „Subagenten sind immer günstiger“ → Tatsächlich teurer für kleine Aufgaben.

❌ „Größerer Kontext macht es schlauer“ → Gegenteil. Qualität sinkt aufgrund von Kontextverfall.

❌ „Ein Upgrade von Pro auf Max wird es lösen“ → Dieselbe Ineffizienz wird nur 5x teurer. Behebe zuerst die Lecks.

Token-Verschwendung ist ein Verhaltensproblem, kein Limitproblem.

Einmaliges Ausführen von /context, Reduzieren von CLAUDE.md, Organisieren von MCP und Kontrollieren von Extended Thinking werden die meisten Probleme lösen.

Denk daran, dass jede Nachricht die Kosten aller vorherigen Nachrichten bezahlt, und du wirst sehen, wo du kürzen kannst.

Prompts für Anfänger

Für Claude Code-Benutzer (Selbstdiagnose & Diät-Set)

Führe den Befehl /context aus und analysiere die Ergebnisse.

Dann führe Folgendes der Reihe nach aus:

1. Nenne mir die 1-3 wichtigsten Elemente, die die meisten Token belegen.

2. Schlage für jedes eine konkrete Aktion vor, die ich jetzt sofort ergreifen kann, um sie zu reduzieren (inklusive geschätzter Token-Ersparnis).

3. Lese mein CLAUDE.md und schlage eine reduzierte Version unter 200 Zeilen / 600 Token vor. Empfehle, wohin entfernte Elemente verschoben werden sollen (Skills? Slash-Befehle? Oder einfach löschen?).

4. Überprüfe abschließend auf andere Lecks wie Extended Thinking oder MCP-Tool-Organisation.

Da ich ein Anfänger bin, priorisiere die Ergebnisse bitte in „Jetzt sofort machen / Machen, wenn du Zeit hast.“

Für Claude.ai Chat-Benutzer (Gesprächshygiene)

Kopieren und einfügen, wenn die Konversation lang wird und Antworten langsamer werden oder Limits drücken:

Fasse nur die wirklich wichtigen Informationen aus dieser Konversation in unter 500 Zeichen zusammen. Schließe Versuch und Irrtum, Abschweifungen und Begrüßungen aus; konzentriere dich nur auf Kernschlussfolgerungen, Entscheidungen und nächste Schritte. Ich werde dies kopieren, um eine neue Konversation zu beginnen, also organisiere es so, dass ich die Arbeit sofort nach dem Einfügen dort fortsetzen kann.

Allein das Besorgen dieser beiden Prompts wird dir helfen, KI bequemer zu nutzen, ohne Token zu verschwenden! Wenn das hilfreich war, gib bitte ein Like!