O MAIS BARATO CUSTA $249 E RODA MODELOS DE 7B O DIA TODO
siga
@antisadh antes de ler. Mais 4 conteúdos como este virão este mês. Se não seguir, perde a oportunidade.
Tomás tem 28 anos, mora no Porto e trabalhava como engenheiro de QA em uma fintech até abrir o aplicativo do banco em março e ver seu cartão com saldo negativo de €187. Ele estava pagando $459 por mês entre ChatGPT Pro, Claude Code Max, Cursor, GitHub Copilot e Gemini Advanced, e não tinha percebido o total até o aluguel não ser pago.
Ele comprou uma RTX 3090 usada no OLX na mesma noite por €680, cancelou tudo, exceto um ChatGPT Plus de $20, e 4 meses depois, a placa já havia se pago duas vezes. Agora, a mesma GPU se aluga na Vast.ai enquanto ele dorme e gera $520 extras por mês.
Ele roda modelos maiores localmente do que o Claude Code Max estava oferecendo a ele.
Isso não é um flex de nicho. As Apple Stores fisicamente ficaram sem Mac Minis no primeiro trimestre porque desenvolvedores estavam convertendo-os em servidores de IA domésticos. A NVIDIA precificou um kit de desenvolvimento de $249 que roda modelos de 7B localmente. O CEO da AMD assinou pessoalmente um mini PC de $1.700 que roda modelos maiores do que o que o Claude Pro oferece. Toda a pilha de assinaturas que fazia sentido em 2024 quebrou em meados de 2026, e quase ninguém está falando sobre isso claramente.
PARTE 1
OS $5.508 POR ANO QUE A MAIORIA DOS DESENVOLVEDORES NÃO PERCEBE QUE ESTÁ PAGANDO
A maioria das pessoas não soma seus gastos com IA. As assinaturas parecem pequenas individualmente e se escondem dentro dos extratos mensais do cartão.
A pilha que um usuário sério de IA usa em 2026:
1Claude Code Max (20x) $200/mês $2.400/ano2ChatGPT Pro $200/mês $2.400/ano3Gemini Advanced $20/mês $240/ano4GitHub Copilot $19/mês $228/ano5Cursor Pro $20/mês $240/ano67Total para usuários pesados $459/mês $5.508/ano
$5.508 por ano. Por um software que roda no computador de outra pessoa, envia seus dados para os servidores deles e limita sua taxa exatamente quando você mais precisa (segunda de manhã, sexta à noite, dia do lançamento).
Cada dispositivo no mapa abaixo transforma essa conta recorrente em uma compra única de hardware mais $2 a $9 por mês de eletricidade. A matemática é a mesma, independentemente do nível que você escolher:
1Ano 1: $5.508 economizados $249 a $1.700 gastos + $50 a $200 de eletricidade2Ano 2: $11.016 economizados $100 de eletricidade3Ano 3: $16.524 economizados $100 de eletricidade
No ano 3, até o dispositivo mais caro do mapa já se pagou de 6 a 10 vezes. E isso antes de considerar o caminho da renda de aluguel na Parte 6.
PARTE 2
NÍVEL 1: JETSON ORIN NANO SUPER, $249, O PONTO DE ENTRADA
Jensen Huang anunciou isso a um preço que não fazia sentido: $249 por um computador com uma GPU NVIDIA dedicada menor que um baralho. Ele é enviado pela Amazon por menos que um jantar legal.
O que ele roda: Llama 3.2 (3B), Mistral 7B, Gemma 2 (9B), DeepSeek R1 (1.5B), Qwen 2.5 (7B). Tudo grátis, tudo local, tudo para sempre. Modelos de 7B lidam com cerca de 80% do que as pessoas usam o ChatGPT Plus diariamente. Rascunhar, resumir, scripts de código, perguntas e respostas rápidas.
O que ele não lida: raciocínio complexo de várias etapas, janelas de contexto grandes acima de 8K tokens, qualquer coisa que exija inteligência de modelo de fronteira.
Especificações rápidas: 8GB de memória unificada, 67 TOPS de desempenho de IA, consumo de 7 a 25W, cerca de $2 por mês de eletricidade funcionando 24/7. O ponto de equilíbrio contra uma única assinatura de $20 do ChatGPT Plus é de 13 meses. O ponto de equilíbrio contra o Claude Code Max é de 6 semanas.
Este é o dispositivo para alguém que paga $20/mês pelo ChatGPT Plus e só quer parar.
PARTE 3
NÍVEL 2: MAC MINI M4, $599, A ESCOLHA PADRÃO
As Apple Stores ficaram sem Mac Minis no início de 2026, e não foi por causa de um lançamento de produto. Os desenvolvedores descobriram que a arquitetura de memória unificada dentro do chip M4 o torna uma das máquinas de inferência de IA mais eficientes que você pode comprar a qualquer preço.
Dois níveis importam:
1Mac Mini M4 $599 16GB de memória, roda modelos de 8B confortavelmente2Mac Mini M4 Pro $1.399 48GB de memória, roda modelos de 70B localmente
O modelo base de $599 roda modelos de 8B de parâmetros confortavelmente. O M4 Pro de $1.399 com 48GB roda o Llama 3.3 70B, que é a coisa mais próxima do GPT-4 que você pode rodar em hardware de consumo hoje.
A razão pela qual funciona tão bem: em um PC normal, os dados copiam constantemente entre a RAM do sistema e a VRAM da GPU, o que mata a velocidade de inferência. No Apple Silicon, a CPU e a GPU compartilham um único pool de memória, então o modelo carrega uma vez e ambos os processadores leem do mesmo lugar. É por isso que um Mac Mini de $599 supera máquinas de IA Windows de $1.500 nos mesmos benchmarks.
Um desenvolvedor documentou a troca no XDA em abril de 2026, substituindo o Claude Pro por uma configuração Mac Mini M4 e relatando que "a produtividade não caiu nem um pouco." O ponto de equilíbrio contra $200/mês do Claude Code Max é de 3 meses no modelo base, 7 meses no Pro.

PARTE 4
NÍVEL 3: RTX 3090 USADA, $700, O MELHOR CUSTO-BENEFÍCIO
Toda GPU lançada nos últimos dois anos tem o mesmo defeito para IA: memória insuficiente. A RTX 5090 tem 32GB e custa $3.800. A RTX 4090 tem 24GB e custa $2.000+. A RTX 3090 de cinco anos atrás, também com 24GB, custa $700 usada no eBay.
Para IA local, a VRAM importa mais do que a geração do chip. Uma placa de 2020 com 24GB supera uma placa de 2024 com 12GB todas as vezes. A RTX 3090 não é apenas barata, ela é ativamente melhor do que suas irmãs menores mais novas para este trabalho específico.
O modelo que torna isso válido: Qwen 3.6 27B. A Alibaba o lançou silenciosamente no início de 2026 e os benchmarks quebraram a internet.
1Benchmark Qwen 3.6 27B (grátis, local) Claude 4.5 Opus ($200/mês)2RealWorldQA (visão) 84,1 77,03IFBench (instruções) 76,5 58,04AIME 2026 (matemática) 91,3 93,35MMLU (conhecimento) 83,2% ~82%
Um modelo gratuito de 27B executável localmente superando o carro-chefe da Anthropic em visão por 7 pontos e em instruções por 18. Este é o dispositivo para alguém que já tem um PC e só precisa encaixar uma placa. Compre de vendedores do eBay com 98%+ de feedback, peça capturas de tela do GPU-Z para verificar erros de memória e evite placas descritas como "vindas de rigs de mineração."
O ponto de equilíbrio contra o Claude Code Max é de 3,5 meses. Depois disso, a placa é pura economia até morrer fisicamente, o que para uma 3090 geralmente é de 5 a 8 anos.
PARTE 5
NÍVEL 4: GMKtec EVO-X2, $1.700, NÍVEL DE FRONTEIRA LOCALMENTE
Na CES 2026, a CEO da AMD, Lisa Su, ficou no palco com uma pequena caixa preta atrás dela. Alguns meses depois, no AMD AI Developer Day em Xangai, ela caminhou até o mesmo dispositivo e o assinou pessoalmente. O dispositivo é o GMKtec EVO-X2.
É o primeiro chip x86 já construído que pode rodar um modelo de 200 bilhões de parâmetros em um único pedaço de silício. Até 110GB de VRAM utilizável no Linux, o suficiente para rodar o Qwen3-235B completa e suavemente, além do DeepSeek-V3 e Llama 3.3 70B sem truques de quantização.
1Modelo VRAM necessária Resultado no EVO-X22Qwen3-235B ~110GB Roda completa, suavemente3DeepSeek-V3 ~100GB Roda confortavelmente4Llama 3.3 70B ~42GB Rápido, bastante espaço livre5Qwen 3.6 27B ~16GB Muito rápido, uso diário
A própria afirmação da AMD na CES: o chip superou uma NVIDIA RTX 5080 em mais de 3x na inferência do DeepSeek R1. Um mini PC do tamanho de uma lancheira superando uma placa de vídeo discreta de $1.000+ em cargas de trabalho reais de IA.
Este é o dispositivo para alguém cujo uso de IA realmente precisa de modelos de 70B a 235B rodando localmente, ou seja, as pessoas que pagam $200/mês pelo ChatGPT Pro e Claude Code Max combinados e queimam os limites de taxa até quarta-feira. O ponto de equilíbrio chega por volta de 9 a 10 meses. Em três anos, o dispositivo economiza aproximadamente $13.000 em comparação com a permanência em assinaturas.
PARTE 6
NÍVEL 5: INVERTA O HARDWARE, GANHE EM VEZ DE ECONOMIZAR
O mesmo hardware que roda IA localmente pode se alugar para outras pessoas que estão rodando IA. Os mineradores de criptomoedas descobriram isso primeiro. Após a fusão do Ethereum matar a mineração de Bitcoin com GPU, eles apontaram seus rigs para plataformas de aluguel de inferência de IA e começaram a ganhar 1,5x a 4x mais por hora do que jamais ganharam minerando cripto.
1GPU Mineração ($/mês) Aluguel de IA ($/mês) Diferença2RTX 3090 $40 a 90 $200 a 400 4-5x3RTX 4090 $80 a 150 $500 a 1.000 5-7x4RTX 5090 $120 a 200 $700 a 1.400 5-7x5A100 80GB n/a $1.200 a 2.500 n/a6H100 n/a $2.500 a 5.000 n/a
As plataformas que fazem isso: Vast.ai, Clore.ai, io.net, RunPod, Akash, Salad. Elas ficam com 15 a 25% e pagam o resto em dólares ou stablecoins. Uma RTX 4090 em uma mesa gera $500 a $1.000 por mês se alugando. Uma pequena fazenda de 8 delas rende $4.000 a $8.000 por mês com um fluxo de caixa estável que a cripto nunca entregou.
As fazendas de mineração que costumavam estar por todo o TikTok não estão mais minerando Bitcoin, elas estão cultivando tokens de IA para ChatGPT, Claude e Gemini através de plataformas de aluguel. OpenAI e Anthropic compram silenciosamente esse poder de computação barato das fazendas e o vendem de volta para você por $200/mês.
Se você já possui uma 4090 ou tem orçamento para montar uma, isso inverte completamente a matemática. Em vez de economizar $200/mês, você ganha $400 a $800/mês por placa.

PARTE 7
UMA ÚNICA PILHA DE SOFTWARE QUE RODA EM TODOS OS DISPOSITIVOS ACIMA
Independentemente de qual dispositivo você escolher, a pilha de software é idêntica. Este é um dos sinais mais fortes de que a IA local está madura agora. Não cinco ferramentas concorrentes, mas uma pilha limpa que funciona em todos os lugares.
1Runtime: Ollama (grátis, código aberto)2Interface: Open WebUI (ChatGPT privado no seu navegador)3Agente de código: Claude Code apontado para Ollama local4Modelos: Qwen 3.6 27B, DeepSeek R1, Llama 3.3 70B,5 Mistral 7B, Gemma 2 9B
A configuração é idêntica em todos os dispositivos. Instale o Ollama com um comando, puxe o maior modelo que sua RAM permitir, aponte o Claude Code para localhost. As mesmas três linhas de bash funcionam em um Jetson de $249 e em um EVO-X2 de $1.700:
1curl -fsSL https://ollama.com/install.sh | sh2ollama pull qwen3.6:27b3ANTHROPIC_BASE_URL=http://localhost:11434/v1 claude
É isso. O Claude Code agora conversa com seu modelo local em vez dos servidores da Anthropic, usa os mesmos comandos, o mesmo fluxo de trabalho, zero custos de API, zero limites de taxa, zero dados saindo da sua rede.
PARTE 8
QUEM DEVE COMPRAR O QUÊ: A ÁRVORE DE DECISÃO
O dispositivo errado é aquele que você compra sem saber por quê. Combine o dispositivo com como você realmente usa IA:
1Se você paga $20/mês pelo ChatGPT Plus → Jetson Orin Nano $2492Se você paga $200/mês em APIs de IA → Mac Mini M4 $5993Se você é um usuário pesado do Claude Code → Mac Mini M4 Pro $1.3994 ou RTX 3090 $7005Se você precisa de modelos 200B+ (trabalho de fronteira) → GMKtec EVO-X2 $1.7006Se você já tem um PC gamer com 4090 → Pule o Mac, adicione placa7Se você quer GANHAR em vez de economizar → Configuração de fazenda de aluguel de GPU8Se você quer o melhor custo-benefício → RTX 3090 usada no PC existente9Se você quer zero configuração, só funciona → Mac Mini M410Se você trabalha com direito/medicina (privacidade) → Qualquer dispositivo funciona, tudo local
O caminho híbrido é o que a maioria das pessoas acaba fazendo. O hardware local lida com 80% das tarefas diárias de graça. Uma única assinatura de $20/mês do ChatGPT Plus ou Claude Pro permanece para os 20% restantes, o raciocínio genuinamente difícil de nível de fronteira onde cada ponto de benchmark importa. Custo mensal total: $23 em vez de $459.
PARTE 9
RESULTADOS DOS PRIMEIROS 6 MESES DE TOMÁS
1Mês 1: -$459 último mês da pilha completa de assinaturas2Mês 2: -$680 comprou RTX 3090 usada no OLX3Mês 3: +$41 manteve apenas ChatGPT Plus $20, economizou $4394Mês 4: +$620 listou GPU no Vast.ai, primeiro aluguel de $5805Mês 5: +$687 renda consistente do Vast6Mês 6: +$720 mesma configuração, sem intervenção
O efeito de capitalização: no mês 6, a GPU já se pagou totalmente, substituiu $459/mês em assinaturas e gera $500 a $700/mês adicionais em renda de aluguel. A diferença total do mês 1 para o mês 6 é de $1.179/mês a favor dele com o mesmo hardware fazendo todo o trabalho.
Em 12 meses, a diferença é de $14.148 em fluxo de caixa em comparação com permanecer na pilha de assinaturas. Em 3 anos, são $42.000. De uma única placa usada de €680.

PARTE 10
A JANELA
Seis meses atrás, este artigo não teria sido possível. Os modelos não eram pequenos o suficiente. O hardware não era barato o suficiente. As assinaturas não eram caras o suficiente. O código aberto não era confiável o suficiente. Todos os quatro mudaram ao mesmo tempo entre o final de 2025 e meados de 2026.
As empresas que construíram IA nos últimos três anos assumiram que ela sempre precisaria de seus data centers. Essa suposição quebrou. Uma caixa de $249 roda modelos de 7B. Um Mac Mini de $599 roda modelos de 14B. Uma GPU usada de $700 roda modelos que superam o Claude em benchmarks de visão. Um mini PC de $1.700 roda 235 bilhões de parâmetros localmente. O data center se mudou para a sala de estar.
Você não precisa escolher a opção mais cara. Você não precisa ser um desenvolvedor para usar nenhum deles. A configuração são três comandos. O software é gratuito. A eletricidade custa menos que um café por mês.
As assinaturas faziam sentido quando o hardware local não conseguia acompanhar. O hardware acompanhou. Escolha seu nível e pare de pagar pelo poder de computação de outra pessoa.
Esta foi a parte 6 de uma série contínua sobre fluxos de renda e cortes de custos de IA sobre os quais ninguém está falando adequadamente. A parte 7 sai na próxima semana e detalha a configuração da fazenda de aluguel de GPU: 8 placas, um apartamento, $4.000 a $8.000 por mês em aluguel passivo de poder de computação de IA.
/Siga @antisadh para que apareça no seu feed no dia do lançamento/





