So ersetzen Sie KI-Abonnements für 412 $/Monat durch lokale Hardware

Du hast zu Hause eine Maschine, die gerade untätig ist. Ein Laptop mit zugeklapptem Deckel. Ein Mac mini im Regal. Ein alter Gaming-PC unter dem Schreibtisch, der für Spotify hochfährt und sich wieder ausschaltet. Er verbraucht Strom, nimmt Platz weg und trägt nichts zu deinem Leben bei.

Gleichzeitig zeigt deine Kreditkartenabrechnung 412 € pro Monat für KI-Abos. Claude Max, ChatGPT Pro, Cursor, Perplexity, zwei Transkriptionsdienste, bei denen du vergessen hast, dass du dich angemeldet hast, ein „Schreibassistent“, den du einmal genutzt hast. 4.944 € pro Jahr für Rechenleistung, die auf ein einziges Hardwaregerät passt, das still in deinem Haus sitzt.

Im Jahr 2026 prallen diese beiden Tatsachen aufeinander. Dieselben Modelle, die hinter den teuersten Abos auf dem Markt stecken, laufen jetzt auf Hardware, die weniger kostet als drei Monate der Rechnung, die sie ersetzen. Und die Maschine läuft nicht nur das Modell. Sie läuft, während du schläfst, nach einem Zeitplan, den du festlegst, und erledigt Arbeit, für die du nie Zeit hättest, sie selbst zu machen.

Dies ist der Artikel, der die Hardware auswählt, das Gehirn auswählt und dir zeigt, was die Kiste tatsächlich tut, wenn du aufhörst, derjenige zu sein, der die Knöpfe drückt.

Wähl die Kiste

Vier Optionen, die sich lohnen. Zwei sind winzige, leise Computer. Zwei sind Karten, die du in einen Desktop steckst, den du bereits besitzt.

Der leise Weg ist einfacher. Mac mini M4, 599 €, ist der Punkt, an dem die meisten landen. Jedes lokale KI-Setup führt irgendwann hierhin, wegen einer Designentscheidung. Normale PCs kopieren Daten zwischen Systemspeicher und GPU-VRAM, und du bist durch das begrenzt, was die Karte hat. Apple Silicon teilt einen Speicherpool. Das Modell wird einmal geladen. Beide Prozessoren lesen von derselben Stelle. Die 599 €-Version mit 16 GB läuft 7–8B-Modelle schneller als Windows-Maschinen, die doppelt so viel kosten. Steig auf 32 GB für 14B-Modelle. Steig auf den M4 Pro für 1.399 € mit 48 GB, und du betreibst Llama-Klasse-70B-Modelle auf etwas so großem wie einem Sandwich. Stromverbrauch 8 bis 25 W, Lüfter bleibt leise, Stromkosten etwa 4 € pro Monat. Das ist die Kiste, wenn du nie wieder über Hardware nachdenken willst.

Mac Studio M3 Ultra, 4.199 € ist die Kompromisslos-Version derselben Idee. Basis-Konfiguration 96 GB Unified Memory, maximal 192 GB. Darüber bist du im Server-Rack-Bereich mit sechsstelligen Beträgen. 192 GB laden die derzeit größten Open-Weight-Modelle, vollständig, ohne Komprimierungstricks. Dieselbe Gewichtsklasse wie die teuersten Abos auf dem Markt. Stromkosten voll ausgelastet etwa 14 € pro Monat, Break-even gegen ein einzelnes 200 €-Abo im Monat 22. Die Maschinen halten 7 bis 10 Jahre. Das ist die Kiste für jemanden, der heute 400 €+ pro Monat an Abos stapelt, oder jemanden, dessen Arbeit rechtlich sein Gerät nicht verlassen darf. Anwälte, Ärzte, Journalisten, die Quellen schützen, Finanzanalysten.

Wenn du lieber einen Desktop verwendest, den du bereits besitzt, zwei Karten. Tesla M40 24 GB, 130 € gebraucht auf eBay. Eine Rechenzentrumskarte, die NVIDIA 2015 für 3.500 € veröffentlicht hat. Längst aus Serverfarmen ausgemustert, fließt auf dem Sekundärmarkt für unter 150 € ab. 24 GB VRAM, genauso viel wie eine brandneue RTX 5090. Genug, um ein 27B-Modell zu betreiben, das auf den meisten Benchmarks mit Frontier-Modellen mithalten kann. Haken: kein Bildschirmausgang, du behältst also deine Haupt-GPU für den Monitor, kein eingebauter Lüfter, also 25 € für ein 3D-gedrucktes Gehäuse und einen Noctua dazu, benötigt einen EPS-auf-PCIe-Adapter für 10 €. Am Ende rund 165 €. Zahlt sich in zwei Wochen gegen ein einziges Pro-Abo aus.

Gebrauchte RTX 3090, 700 €. Für lokale KI ist VRAM wichtiger als die GPU-Generation, und die 3090 ist der Preis-zu-VRAM-Gewinner, der im Jahr 2026 existiert. Eine neue RTX 5090 hat 32 GB für 3.800 €. Eine gebrauchte 4090 hat 24 GB für 2.000 €. Eine fünf Jahre alte 3090 hat die gleichen 24 GB wie die 4090 und kostet 650 bis 750 €. Gleiche nutzbare Modellgröße, 70 bis 80 % der Geschwindigkeit, ein Drittel des Preises. Steck sie in einen vorhandenen Gaming-PC, insgesamt rund 850 €, läuft ein 27B-Modell mit 25 bis 30 Token pro Sekunde. Zwei Regeln beim Kauf gebrauchter Karten: 98 %+ Verkäuferbewertung, und alles überspringen, das Mining erwähnt. Hochtemperaturbetrieb tötet Speicherchips. Gaming zieht weniger.

Wähle in einem Atemzug:

text

1möchte leise, null Einrichtung, funktioniert für immer       -> Mac mini M4, 599 €
2staple 400+ €/Monat an Abos oder datenschutzgebunden          -> Mac Studio M3 Ultra, 4.199 €
3besitze einen Desktop, günstigster Einstieg möglich           -> Tesla M40, 130 €
4besitze einen Gaming-PC, beste Geschwindigkeit fürs Geld     -> gebrauchte RTX 3090, 700 €

Egal, was du wählst, die Installation besteht aus drei Befehlen, die auf jeder Stufe identisch sind:

bash

1curl -fsSL https://ollama.com/install.sh | sh
2ollama pull qwen2.5:32b
3ANTHROPIC_BASE_URL=http://localhost:11434/v1 claude

Wähl das Gehirn

Hardware ist der Körper. Das Denken braucht noch einen Verstand, und der Trick, der am meisten Geld spart, ist, mehr als einen zu verwenden.

Claude Sonnet ist das Schwergewicht. Setze es bei Aufgaben ein, die echtes Denken erfordern. 15 Quellen heranziehen und die stärksten Behauptungen gegeneinander abwägen. Entscheiden, mit welchen von 400 Notizen in deinem Tresor ein neuer Artikel verbunden ist. Ungefähr 3 € pro Million Eingabe-Token. Nichts Lokales erreicht es bei komplexem mehrstufigem Denken.

Claude Haiku ist die billige Hand. Tagging. Plausibilitätsprüfungen. Auswählen, welche von drei Optionen in deiner Morgenübersicht erscheinen soll. Ungefähr 12x günstiger als Sonnet. Die Art von Arbeit, die weniger als einen Cent pro Aufruf kostet.

Ein lokales Modell, was auch immer in den VRAM deiner Kiste passt, ist der Arbeiter, der niemals Daten nach außen schickt. Lebt auf deinem Rechner. Übernimmt Transkription, Zusammenfassungen, alles, wo du lieber nicht pro Token bezahlen und lieber keine sensiblen Inhalte an einen Server senden möchtest. Kostenlos nach Strom.

Die Regel, die am meisten Geld spart: Nutze Sonnet nicht zum Taggen, nutze Haiku nicht zum Denken, versende keine privaten Inhalte nach außen, wenn lokale Lösung es gut handhabt. Deine Kiste erlaubt es dir, verschiedene Brenner zu mischen. Du schaltest die Fritteuse nicht ein, um ein Ei zu kochen.

Was sie tut, während du schläfst

Eine Kiste, die immer an ist, ist verschwendet, wenn sie nur einen Chat-Tab ersetzt. Der Sinn ist, sie ohne dich arbeiten zu lassen. Jeder Job hat die gleiche vierteilige Form:

text

1AUSLÖSER   -> etwas startet es (Zeitplan, neue Datei, Webhook)
2MACHEN     -> die Arbeit passiert
3PRÜFEN     -> Ergebnis gegen eine harte Regel geprüft
4WIEDERHOLEN -> beheben, was fehlgeschlagen ist, oder stoppen, wenn es bestanden ist

Drei Jobs, die es wert sind, am ersten Wochenende eingerichtet zu werden.

Der Torwächter. Überwacht deinen Posteingang. Jede neue E-Mail wird in drei Stapel sortiert: Muss-beantwortet, Zur-Info, Müll. Ein zweizeiliger Entwurf einer Antwort wird für den ersten Stapel geschrieben, damit du ihn nur noch genehmigen musst. Du wachst auf mit vier vorgefertigten Antworten, drückst bei drei auf Senden, bearbeitest eine. Posteingang in sieben Minuten erledigt.

Der Kartograph. Lebt in deinem Notizenordner. Jeder Artikel, den du speicherst, jeder YouTube-Link, den du ablegst, jedes Meeting-Transkript, das dort landet, wird verarbeitet: 1-zeilige Zusammenfassung, drei Hauptaussagen, das stärkste Zitat extrahiert, und die neue Notiz wird mit bestehenden Notizen zum selben Thema verknüpft. Prüfregel: Notiz hat alle vier Teile und mindestens einen Wiki-Link zu einer bestehenden Notiz. Füllmaterial wird als „geringes Signal“ markiert und übersprungen. Nach zwei Monaten verwandelt sich dein „Später-lesen“-Stapel in ein durchsuchbares Archiv von Argumenten und Zitaten, anstatt in einen Friedhof von Tabs.

Der Beobachter. Tut die meiste Zeit nichts. Das ist der Job. Beobachtet eine Liste von Dingen, die du ihm gesagt hast, zu beobachten. Ein Schlüsselwort in einem Telegram-Kanal. Eine bestimmte Stellenanzeige. Ein Preis bei Amazon. Der Beobachter pingt dein Telefon nur an, wenn sich tatsächlich etwas über eine von dir festgelegte Schwelle bewegt. Läuft auf Haiku. Kostet weniger als einen Cent pro Tag.

Die drei Regeln, die Jobs trennen, die überleben, von Jobs, die still Geld verbrennen: Die Prüfung muss eine harte Regel sein, kein Bauchgefühl. Der Job muss sich merken, was er versucht hat. Der Job muss wissen, wann er aufgeben muss. Überspringe eine davon, und du wachst mit einer Token-Rechnung statt einem Ergebnis auf.

Die Rechnung

text

1Hardware (einmalig)        130 bis 4.199 €
2Strom                       4 bis 14 € / Monat
3Optional: EIN Abo behalten  20 € / Monat

Alter Abo-Stapel: 412 €/Monat, 4.944 €/Jahr.

Neuer Stapel mit dem günstigsten Einstieg: 130 € Hardware + 96 €/Jahr Strom + 240 €/Jahr für ein behaltenes Abo = 466 € im ersten Jahr, 336 € jedes Jahr danach. Das sind 90 % Rabatt auf die Rechnung, im ersten Jahr, inklusive der Kiste. Selbst der Mac Studio erreicht den Break-even gegen ein einzelnes 200 €-Abo im Monat 22, und danach ist es reine Ersparnis für das Jahrzehnt, das er läuft.

Probiere einen aus, bevor du etwas kaufst

Du kannst einen Job jetzt sofort in jedem Chat fühlen, mit nichts als einem Prompt:

text

1Du wirst in einer Schleife arbeiten, bis die Aufgabe die Messlatte erreicht.
2
3AUFGABE: [beschreibe genau, was produziert werden soll]
4
5ERFOLGSKRITERIEN (streng, keine weichen Durchgänge):
6- [Kriterium 1]
7- [Kriterium 2]
8- [Kriterium 3]
9
10SCHLEIFENPROTOKOLL, wiederhole jede Runde:
111. PLANEN   - nenne den nächsten einzelnen Schritt.
122. MACHEN   - produziere oder verbessere die Arbeit.
133. PRÜFEN   - bewerte 1–10 bei jedem Kriterium, gnadenlos ehrlich.
144. ENTSCHEIDEN - wenn alle Bewertungen 8+ sind, drucke "FINAL" und stoppe.
15                 Andernfalls drucke "ITERATING" und behebe den schwächsten Punkt.
16
17Rufe es nie für erledigt aus, bis jedes Kriterium 8+ ist.
18Stelle mir keine Fragen. Triff eine sinnvolle Annahme und fahre fort.

Es entwirft, bewertet sich selbst, findet die Schwachstelle, schreibt um, wiederholt sich. Das ist ein Job, gebaut mit einem Absatz. Was fehlt, ist der Teil, der zählt: Du bist immer noch der Auslöser. Schließt du den Tab, ist er weg.

Wenn du so etwas von Hand dreimal in einer Woche ausführst, hat es sich einen festen Platz auf der Kiste verdient. Wenn du nicht zweimal darauf zurückgreifst, rettet dich keine Hardware.

Die Reihenfolge, in der du das tun solltest

Bringe einen manuellen Durchlauf in einem regulären Chat zuverlässig zum Laufen. Verwandle es in ein Skript. Wickle das Skript in ein echtes Prüf-Gate und eine echte Stopp-Bedingung. Erst dann setze es auf einen Zeitplan. Vorauszuspringen ist genau der Weg, wie ein Job die ganze Nacht an einer schlechten Eingabe läuft und dir leise Geld kostet, während du schläfst.

Der Punkt

Der Computer in deinem Haus, der 23 Stunden am Tag nichts tut, war die falsche Maschine. Er war untätig, weil du der Einzige warst, der ihm sagte, was er tun soll. Die richtige Maschine wartet nicht. Sie läuft, während du beim Abendessen bist, während du schläfst, während du in einem Meeting bist, das nichts mit ihr zu tun hat. Die Arbeit erscheint morgens auf deinem Telefon, und du entscheidest, was du damit machst.

Hör auf, Rechenleistung zu mieten, die auf eine 130 €-GPU passt. Kauf die Kiste. Schlaf durch die Arbeit.

Wenn du weitere solche Aufschlüsselungen möchtest, poste ich alle paar Tage eine.

X — https://x.com/gippp69

Telegram — https://t.me/GipArcAI





Eine Box, einmal angeschlossen – Schluss mit 412 $ monatlich für KI-Abos

Turn one viral article into a full content workflow

Aktuelle virale Artikel

Es war nicht mein Durchhaltevermögen oder meine Willenskraft, die bei einer 40-Stunden-Woche fehlten

Ich habe meinen Hermes Agenten 10x schneller gemacht, ohne das Modell zu ändern

Schluss mit der Endlosschleife: So lassen Sie Claude für sich arbeiten, während Sie schlafen

Der GOAT Juni-Newsletter

Update zur Tokenomics

Baseball in der Krise: Das weiß jeder