Comment remplacer 412 $/mois d'abonnements IA par du matériel local

Tu as une machine chez toi qui ne fait rien en ce moment. Un ordinateur portable fermé. Un Mac mini sur une étagère. Un vieux PC gaming sous le bureau qui démarre pour Spotify et s’éteint. Il consomme de l’électricité, prend de la place et ne contribue en rien à ta vie.

Pendant ce temps, ton relevé de carte de crédit affiche 412 $ par mois pour des abonnements AI. Claude Max, ChatGPT Pro, Cursor, Perplexity, deux transcripteurs dont tu as oublié l’abonnement, un « assistant d’écriture » que tu as utilisé une fois. 4 944 $ par an pour louer une puissance de calcul qui tient sur un seul matériel qui dort silencieusement chez toi.

En 2026, ces deux faits se percutent. Les mêmes modèles qui se cachent derrière les abonnements les plus chers du marché tournent désormais sur du matériel qui coûte moins de trois mois de la facture qu’ils remplacent. Et la machine ne se contente pas de faire tourner le modèle. Elle tourne pendant que tu dors, selon un planning que tu définis, en effectuant un travail que tu n’aurais jamais le temps de faire toi-même.

Cet article choisit le matériel, choisit le cerveau, et te montre ce que la boîte fait vraiment quand tu arrêtes d’être celui qui appuie sur les boutons.

Choisis la boîte

Quatre options qui valent le coup. Deux sont de petits ordinateurs silencieux. Deux sont des cartes que tu insères dans un desktop que tu possèdes déjà.

La route silencieuse est plus simple. Mac mini M4, 599 $, c’est là que la plupart des gens atterrissent. Toute configuration AI locale finit par pointer ici à cause d’un choix de conception. Les PC normaux copient les données entre la RAM système et la VRAM du GPU, et tu es limité par ce que la carte possède. Apple Silicon partage un seul pool mémoire. Le modèle se charge une fois. Les deux processeurs lisent au même endroit. La version à 599 $ avec 16 Go fait tourner des modèles 7‑8B plus vite que des Windows coûtant le double. Monte à 32 Go pour les modèles 14B. Monte au M4 Pro à 1 399 $ avec 48 Go et tu fais tourner des modèles Llama‑class 70B sur quelque chose de la taille d’un sandwich. Consommation électrique 8 à 25 W, le ventilateur reste silencieux, électricité environ 4 $ par mois. C’est la boîte si tu ne veux plus jamais penser au matériel.

Mac Studio M3 Ultra, 4 199 $, c’est la version sans compromis de la même idée. Configuration de base 96 Go de mémoire unifiée, max 192 Go. Au‑dessus, tu es dans le territoire des racks serveur à six chiffres. 192 Go chargent les plus gros modèles open‑weight qui existent, taille réelle, sans astuce de compression. Même catégorie de poids que les abonnements les plus chers du marché. Électricité à fond environ 14 $ par mois, point mort par rapport à un seul abonnement à 200 $/mois au 22e mois. Les machines durent 7 à 10 ans. C’est la boîte pour celui qui cumule 400 $+ par mois d’abonnements aujourd’hui, ou pour celui dont le travail ne peut légalement pas quitter son appareil. Avocats, médecins, journalistes protégeant leurs sources, analystes financiers.

Si tu préfères utiliser un desktop que tu possèdes déjà, deux cartes. Tesla M40 24 Go, 130 $ d’occasion sur eBay. Une carte datacenter que NVIDIA a sortie en 2015 à 3 500 $. Depuis longtemps retirée des fermes de serveurs, elle déferle sur le marché de l’occasion à moins de 150 $. 24 Go de VRAM, comme un tout nouveau RTX 5090. Assez pour faire tourner un modèle 27B qui tient tête aux modèles frontier sur la plupart des benchmarks. Inconvénients : pas de sortie vidéo donc tu gardes ton GPU principal pour l’écran, pas de ventilateur intégré donc ajoute 25 $ pour un cache imprimé en 3D et un Noctua, besoin d’un adaptateur EPS vers PCIe pour 10 $. Le tout pour environ 165 $. Remboursé en deux semaines par rapport à un seul abonnement Pro.

RTX 3090 d’occasion, 700 $. Pour l’AI locale, la VRAM compte plus que la génération du GPU, et la 3090 est la gagnante du rapport prix/VRAM qui existe en 2026. Un nouveau RTX 5090 a 32 Go pour 3 800 $. Une 4090 d’occasion a 24 Go pour 2 000 $. Une 3090 vieille de cinq ans a les mêmes 24 Go que la 4090 et se vend entre 650 et 750 $. Même taille de modèle exploitable, 70 à 80 % de la vitesse, un tiers du prix. Insère‑la dans un PC gaming existant, total environ 850 $, elle fait tourner un modèle 27B à 25 à 30 tokens par seconde. Deux règles pour acheter des cartes d’occasion : note du vendeur 98 %+ et ignore tout ce qui mentionne le minage. La chaleur élevée tue les puces mémoire. Le gaming sollicite la carte en cycles normaux.

Choisis en une respiration :

text

1veux du silencieux, zéro configuration, fonctionne pour toujours       -> Mac mini M4, 599 $
2cumules 400 + $/mois d’abonnements ou confidentialité obligatoire      -> Mac Studio M3 Ultra, 4 199 $
3possèdes un desktop, entrée la moins chère possible                     -> Tesla M40, 130 $
4possèdes un PC gaming, meilleure vitesse pour l’argent                  -> RTX 3090 d’occasion, 700 $

Quelle que soit ta boîte, l’installation se fait en trois commandes identiques sur tous les niveaux :

bash

1curl -fsSL https://ollama.com/install.sh | sh
2ollama pull qwen2.5:32b
3ANTHROPIC_BASE_URL=http://localhost:11434/v1 claude

Choisis le cerveau

Le matériel est le corps. La réflexion a encore besoin d’un esprit, et l’astuce qui permet d’économiser le plus d’argent est d’en utiliser plusieurs.

Claude Sonnet est le poids lourd. Confie‑lui les tâches qui nécessitent un vrai raisonnement. Compiler 15 sources et peser les affirmations les plus fortes les unes contre les autres. Décider à laquelle de 400 notes de ton coffre un nouvel article se rattache. Environ 3 $ par million de tokens d’entrée. Rien de local ne l’égale encore sur les raisonnements complexes en plusieurs étapes.

Claude Haiku est la main bon marché. Étiquetage. Vérifications de cohérence. Choisir laquelle de trois options afficher dans ton briefing matinal. Environ 12 x moins cher que Sonnet. Le genre de travail qui coûte moins d’un centime par appel.

Un modèle local, celui qui tient dans la VRAM de ta boîte, est le travailleur qui n’envoie jamais de données à l’extérieur. Il vit sur ta machine. Il s’occupe de la transcription, des résumés, de tout ce pour quoi tu préfères ne pas payer par token et ne pas envoyer de contenu sensible à un serveur. Gratuit après l’électricité.

La règle qui permet d’économiser le plus : n’utilise pas Sonnet pour de l’étiquetage, n’utilise pas Haiku pour de la réflexion, n’envoie pas de contenu privé à l’extérieur quand le local fait l’affaire. Ta boîte te permet de mélanger les brûleurs. Tu n’allumes pas la friteuse pour faire bouillir un œuf.

Ce qu’elle fait pendant que tu dors

Une boîte toujours allumée est perdue si tout ce qu’elle fait est de remplacer un onglet de chat. L’idée est de la laisser travailler sans toi. Chaque tâche a la même structure en quatre parties :

text

1DÉCLENCHEUR -> quelque chose la démarre (planification, nouveau fichier, webhook)
2FAIRE       -> le travail s’effectue
3VÉRIFIER    -> le résultat est contrôlé par rapport à une règle stricte
4ITÉRER      -> corriger ce qui a échoué, ou s’arrêter si ça passe

Trois tâches qui valent la peine d’être mises en place le premier week-end.

Le gardien. Il surveille ta boîte de réception. Chaque nouvel email est trié en trois piles : nécessite-une-réponse, pour information, poubelle. Un brouillon de réponse de deux lignes est rédigé pour la première pile, tu n’as qu’à l’approuver. Tu te réveilles avec quatre réponses pré‑rédigées, tu envoies trois, tu en édites une. Boîte de réception traitée en sept minutes.

Le cartographe. Il vit dans ton dossier de notes. Chaque article que tu sauvegardes, chaque lien YouTube que tu déposes, chaque transcription de réunion qui atterrit là est traité : résumé d’une ligne, trois affirmations principales, la citation la plus forte extraite, et la nouvelle note est reliée aux notes existantes sur le même sujet. Règle de vérification : la note a les quatre éléments et au moins un wiki‑lien vers une note existante. Le superflu est étiqueté « faible signal » et ignoré. Après deux mois, ta pile « à lire » se transforme en archive consultable d’arguments et de citations au lieu d’un cimetière d’onglets.

Le veilleur. Il ne fait rien la plupart du temps. C’est son boulot. Il surveille une liste de choses que tu lui as demandé de surveiller. Un mot‑clé dans un canal Telegram. Une offre d’emploi spécifique. Un prix sur Amazon. Le veilleur t’envoie une notification sur ton téléphone uniquement quand quelque chose franchit un seuil que tu as défini. Il tourne sur Haiku. Ça coûte moins d’un centime par jour.

Les trois règles qui séparent les tâches qui survivent de celles qui brûlent de l’argent en silence : la vérification doit être une règle stricte, pas une impression. La tâche doit se rappeler ce qu’elle a essayé. La tâche doit savoir quand abandonner. Saute l’une de ces règles et tu te réveilles avec une facture de tokens au lieu d’un résultat.

Les chiffres

text

1Matériel (une fois)           130 $ à 4 199 $
2Électricité                   4 $ à 14 $ / mois
3Optionnel : garder UN abonnement     20 $ / mois

Ancien stack d’abonnements : 412 $/mois, 4 944 $/an.

Nouveau stack avec l’entrée la moins chère : 130 $ de matériel + 96 $/an d’électricité + 240 $/an pour un abonnement conservé = 466 $ la première année, 336 $ chaque année suivante. Soit 90 % de réduction sur la facture dès la première année, boîte comprise. Même le Mac Studio atteint le point mort par rapport à un seul abonnement à 200 $/mois au 22e mois, et après c’est de l’économie pure pendant la décennie où il reste en service.

Essaie‑en un avant d’acheter quoi que ce soit

Tu peux sentir une tâche tout de suite, dans n’importe quel chat, avec rien de plus qu’un prompt :

text

1Tu vas travailler en boucle jusqu’à ce que la tâche réponde aux critères.
2
3TÂCHE : [décris exactement ce que tu veux produire]
4
5CRITÈRES DE SUCCÈS (stricts, pas de passe‑droit) :
6- [critère 1]
7- [critère 2]
8- [critère 3]
9
10PROTOCOLE DE BOUCLE, répète à chaque tour :
111. PLAN   – indique la seule prochaine étape.
122. FAIS   – produis ou améliore le travail.
133. VÉRIFIE – note de 1 à 10 chaque critère, honnêtement brutal.
144. DÉCIDE – si chaque note est 8+, imprime « FINAL » et arrête.
15            Sinon imprime « ITÉRATION » et corrige le point le plus faible.
16
17Ne déclare jamais fini tant que chaque critère n’est pas 8+.
18Ne me pose pas de questions. Fais une supposition raisonnable et continue.

Il rédige, se note, trouve le point faible, réécrit, répète. C’est une tâche, construite avec un paragraphe. Ce qui manque, c’est la partie qui compte : tu es encore le déclencheur. Ferme l’onglet et tout disparaît.

Si tu exécutes un truc comme ça à la main trois fois dans la semaine, il a gagné sa place permanente sur la boîte. Si tu n’y as pas recours deux fois, aucun matériel ne le sauvera.

L’ordre dans lequel procéder

Rends d’abord une exécution manuelle fiable dans un chat normal. Transforme‑la en script. Entoure le script d’une vraie porte de vérification et d’une vraie condition d’arrêt. Ce n’est qu’ensuite que tu le mets sur un planning. Sauter les étapes, c’est exactement comme faire tourner une tâche toute la nuit sur une mauvaise entrée et payer la facture en silence pendant que tu dors.

L’essentiel

L’ordinateur chez toi qui ne fait rien 23 heures sur 24 était la mauvaise machine. Il était inactif parce que tu étais le seul à lui dire quoi faire. La bonne machine n’attend pas. Elle tourne pendant que tu dînes, pendant que tu dors, pendant que tu es en réunion qui n’a rien à voir avec elle. Le travail apparaît sur ton téléphone le matin et tu décides quoi en faire.

Arrête de louer une puissance de calcul qui tient sur un GPU à 130 $. Achète la boîte. Dors pendant que le travail se fait.

Si tu veux d’autres analyses comme celle-ci, j’en publie une tous les deux ou trois jours.

X — https://x.com/gippp69

Telegram — https://t.me/GipArcAI





Un seul boîtier, une seule connexion, et vous supprimez vos 412 $/mois d'abonnements IA

Turn one viral article into a full content workflow

Articles viraux récents

Présentation d'Open USD

Mémoire Wiki

J'ai rendu mon agent Hermes 10 fois plus rapide sans changer de modèle

Mise à jour de la tokenomics

Préparez-vous pour l'AX2026 !

La newsletter de juin du GOAT