EL MÁS BARATO CUESTA $249 Y EJECUTA MODELOS DE 7B TODO EL DÍA
sigue a
@antisadh antes de leer. Vienen 4 publicaciones más como esta este mes. Si no lo sigues, te pierdes el dinero.
Tomás tiene 28 años, vive en Oporto y trabajaba como ingeniero de QA en una fintech hasta que abrió su aplicación bancaria en marzo y vio su tarjeta en -187 €. Estaba pagando 459 $ al mes entre ChatGPT Pro, Claude Code Max, Cursor, GitHub Copilot y Gemini Advanced, y no se había dado cuenta del total hasta que el recibo del alquiler rebotó.
Esa misma noche compró una RTX 3090 usada en OLX por 680 €, canceló todo excepto un ChatGPT Plus de 20 $, y 4 meses después la tarjeta se había pagado a sí misma dos veces. Ahora la misma GPU se alquila sola en Vast.ai mientras él duerme y le genera 520 $ extra al mes.
Ejecuta modelos más grandes localmente de los que Claude Code Max le ofrecía.
Esto no es un alarde de nicho. Las Apple Store se quedaron físicamente sin Mac Mini en el primer trimestre porque los desarrolladores las estaban convirtiendo en servidores de IA domésticos. NVIDIA lanzó un kit de desarrollo de $249 que ejecuta modelos de 7B localmente. El CEO de AMD firmó personalmente un mini PC de $1,700 que ejecuta modelos más grandes que los que te da Claude Pro. Todo el ecosistema de suscripciones que tenía sentido en 2024 se rompió a mediados de 2026, y casi nadie lo está contando con claridad.
PARTE 1
LOS $5,508 AL AÑO QUE LA MAYORÍA DE LOS DESARROLLADORES NO SABEN QUE ESTÁN PAGANDO
La mayoría de la gente no suma lo que gasta en IA. Las suscripciones parecen pequeñas individualmente y se esconden dentro de los extractos mensuales de la tarjeta.
El stack que un usuario serio de IA utiliza en 2026:
1Claude Code Max (20x) $200/mes $2,400/año2ChatGPT Pro $200/mes $2,400/año3Gemini Advanced $20/mes $240/año4GitHub Copilot $19/mes $228/año5Cursor Pro $20/mes $240/año67Total para usuarios intensivos $459/mes $5,508/año
$5,508 al año. Por un software que se ejecuta en el ordenador de otro, envía tus datos a sus servidores y te limita la velocidad justo cuando más lo necesitas (lunes por la mañana, viernes por la tarde, el día del lanzamiento).
Cada dispositivo en el mapa de abajo convierte esa factura recurrente en una compra de hardware única más $2 a $9 al mes en electricidad. Las matemáticas son las mismas sin importar el nivel que elijas:
1Año 1: $5,508 ahorrados $249 a $1,700 gastados + $50 a $200 electricidad2Año 2: $11,016 ahorrados $100 electricidad3Año 3: $16,524 ahorrados $100 electricidad
Para el año 3, incluso el dispositivo más caro del mapa se ha pagado a sí mismo entre 6 y 10 veces. Y eso es antes de considerar la vía de ingresos por alquiler de la Parte 6.
PARTE 2
NIVEL 1: JETSON ORIN NANO SUPER, $249, EL PUNTO DE ENTRADA
Jensen Huang anunció esto a un precio que no tenía sentido: $249 por un ordenador con una GPU NVIDIA dedicada más pequeña que una baraja de cartas. Se envía desde Amazon por menos que una cena elegante.
Lo que ejecuta: Llama 3.2 (3B), Mistral 7B, Gemma 2 (9B), DeepSeek R1 (1.5B), Qwen 2.5 (7B). Todos gratis, todos locales, todos para siempre. Los modelos de 7B manejan alrededor del 80% de lo que la gente usa ChatGPT Plus a diario. Redactar, resumir, programar scripts, preguntas y respuestas rápidas.
Lo que no maneja: razonamiento complejo de múltiples pasos, ventanas de contexto grandes de más de 8K tokens, cualquier cosa que requiera inteligencia de modelo frontera.
Especificaciones de un vistazo: 8 GB de memoria unificada, 67 TOPS de rendimiento de IA, consumo de 7 a 25 W, unos $2 al mes en electricidad funcionando 24/7. El punto de equilibrio frente a una sola suscripción de ChatGPT Plus de $20 es de 13 meses. El punto de equilibrio frente a Claude Code Max es de 6 semanas.
Este es el dispositivo para alguien que paga $20/mes por ChatGPT Plus y solo quiere dejar de hacerlo.
PARTE 3
NIVEL 2: MAC MINI M4, $599, LA OPCIÓN POR DEFECTO
Las Apple Store se quedaron sin Mac Mini a principios de 2026, y no fue por el lanzamiento de un producto. Los desarrolladores descubrieron que la arquitectura de memoria unificada del chip M4 lo convierte en una de las máquinas de inferencia de IA más eficientes que puedes comprar a cualquier precio.
Dos niveles importan:
1Mac Mini M4 $599 16 GB de memoria, ejecuta modelos de 8B cómodamente2Mac Mini M4 Pro $1,399 48 GB de memoria, ejecuta modelos de 70B localmente
El modelo base de $599 ejecuta modelos de 8 mil millones de parámetros cómodamente. El M4 Pro de $1,399 con 48 GB ejecuta Llama 3.3 70B, que es lo más parecido a GPT-4 que puedes ejecutar en hardware de consumo hoy en día.
La razón por la que funciona tan bien: en una PC normal, los datos se copian constantemente entre la RAM del sistema y la VRAM de la GPU, lo que mata la velocidad de inferencia. En Apple Silicon, la CPU y la GPU comparten un único grupo de memoria, por lo que el modelo se carga una vez y ambos procesadores leen desde el mismo lugar. Es por esto que un Mac Mini de $599 supera a máquinas de IA con Windows de $1,500 en los mismos puntos de referencia.
Un desarrollador documentó el cambio en XDA en abril de 2026, reemplazando Claude Pro con una configuración de Mac Mini M4 e informando que "la productividad no bajó ni un ápice". El punto de equilibrio frente a Claude Code Max de $200/mes es de 3 meses en el modelo base, 7 meses en el Pro.

PARTE 4
NIVEL 3: RTX 3090 USADA, $700, LA MEJOR RELACIÓN CALIDAD-PRECIO
Cada GPU lanzada en los últimos dos años tiene el mismo defecto para la IA: no tiene suficiente memoria. La RTX 5090 tiene 32 GB y cuesta $3,800. La RTX 4090 tiene 24 GB y cuesta $2,000+. La RTX 3090, de cinco años de antigüedad, también con 24 GB, cuesta $700 usada en eBay.
Para la IA local, la VRAM importa más que la generación del chip. Una tarjeta de 2020 con 24 GB supera a una tarjeta de 2024 con 12 GB siempre. La RTX 3090 no solo es barata, sino que es activamente mejor que sus hermanas más pequeñas y nuevas para este trabajo específico.
El modelo que hace que esto valga la pena: Qwen 3.6 27B. Alibaba lo lanzó silenciosamente a principios de 2026 y los puntos de referencia rompieron internet.
1Punto de referencia Qwen 3.6 27B (gratis, local) Claude 4.5 Opus ($200/mes)2RealWorldQA (visión) 84.1 77.03IFBench (instrucciones) 76.5 58.04AIME 2026 (matemáticas) 91.3 93.35MMLU (conocimiento) 83.2% ~82%
Un modelo de 27B gratuito y ejecutable localmente que supera al buque insignia de Anthropic en visión por 7 puntos y en instrucciones por 18. Este es el dispositivo para alguien que ya tiene una PC y solo necesita insertar una tarjeta. Cómprala a vendedores de eBay con más del 98% de comentarios positivos, pide capturas de pantalla de GPU-Z para comprobar si hay errores de memoria y evita las tarjetas descritas como "procedentes de equipos de minería".
El punto de equilibrio frente a Claude Code Max es de 3.5 meses. Después de eso, la tarjeta es puro ahorro hasta que muere físicamente, lo que para una 3090 suele ser de 5 a 8 años.
PARTE 5
NIVEL 4: GMKtec EVO-X2, $1,700, NIVEL FRONTERA LOCALMENTE
En el CES 2026, la CEO de AMD, Lisa Su, se paró en el escenario con una pequeña caja negra detrás de ella. Unos meses después, en el Día del Desarrollador de IA de AMD en Shanghái, se acercó a ese mismo dispositivo y lo firmó personalmente. El dispositivo es el GMKtec EVO-X2.
Es el primer chip x86 jamás construido que puede ejecutar un modelo de 200 mil millones de parámetros en un solo silicio. Hasta 110 GB de VRAM utilizable en Linux, suficiente para ejecutar Qwen3-235B completa y fluidamente, además de DeepSeek-V3 y Llama 3.3 70B sin trucos de cuantización.
1Modelo VRAM necesaria Resultado en EVO-X22Qwen3-235B ~110 GB Se ejecuta completa y fluidamente3DeepSeek-V3 ~100 GB Se ejecuta cómodamente4Llama 3.3 70B ~42 GB Rápida, con mucho margen5Qwen 3.6 27B ~16 GB Muy rápida, para uso diario
La propia afirmación de AMD en el CES: el chip superó a una NVIDIA RTX 5080 en más de 3 veces en la inferencia de DeepSeek R1. Un mini PC del tamaño de una fiambrera superando a una tarjeta gráfica discreta de más de $1,000 en cargas de trabajo reales de IA.
Este es el dispositivo para alguien cuyo uso de IA realmente necesita modelos de 70B a 235B ejecutándose localmente, es decir, las personas que pagan $200/mes por ChatGPT Pro y Claude Code Max combinados y agotan los límites de velocidad para el miércoles. El punto de equilibrio se alcanza alrededor de los 9 a 10 meses. En tres años, el dispositivo ahorra aproximadamente $13,000 en comparación con mantener las suscripciones.
PARTE 6
NIVEL 5: INVIERTE EL HARDWARE, GANA EN LUGAR DE AHORRAR
El mismo hardware que ejecuta IA localmente puede alquilarse a otras personas que ejecutan IA. Los mineros de criptomonedas fueron los primeros en darse cuenta. Después de que la fusión de Ethereum acabara con la minería de Bitcoin con GPU, dirigieron sus equipos a plataformas de alquiler de inferencia de IA y empezaron a ganar de 1.5 a 4 veces más por hora de lo que nunca ganaron minando criptomonedas.
1GPU Minería ($/mes) Alquiler de IA ($/mes) Diferencia2RTX 3090 $40 a 90 $200 a 400 4-5x3RTX 4090 $80 a 150 $500 a 1,000 5-7x4RTX 5090 $120 a 200 $700 a 1,400 5-7x5A100 80GB n/a $1,200 a 2,500 n/a6H100 n/a $2,500 a 5,000 n/a
Las plataformas que hacen esto: Vast.ai, Clore.ai, io.net, RunPod, Akash, Salad. Se quedan con el 15 al 25% y pagan el resto en dólares o stablecoins. Una RTX 4090 en un escritorio genera de $500 a $1,000 al mes alquilándose. Una pequeña granja de 8 de ellas genera de $4,000 a $8,000 al mes con un flujo de caja estable que las criptomonedas nunca proporcionaron.
Las granjas de minería que solían estar por todas partes en TikTok ya no minan Bitcoin, están cultivando tokens de IA para ChatGPT, Claude y Gemini a través de plataformas de alquiler. OpenAI y Anthropic compran silenciosamente esa potencia de cálculo barata de las granjas y te la venden por $200/mes.
Si ya tienes una 4090 o tienes presupuesto para montar una, esto cambia las matemáticas por completo. En lugar de ahorrar $200/mes, ganas de $400 a $800/mes por tarjeta.

PARTE 7
UN STACK DE SOFTWARE QUE FUNCIONA EN TODOS LOS DISPOSITIVOS ANTERIORES
Independientemente del dispositivo que elijas, el stack de software es idéntico. Esta es una de las señales más fuertes de que la IA local ya es madura. No cinco herramientas competidoras, sino un stack limpio que funciona en todas partes.
1Runtime: Ollama (gratuito, código abierto)2Interfaz: Open WebUI (ChatGPT privado en tu navegador)3Agente de código: Claude Code apuntando a Ollama local4Modelos: Qwen 3.6 27B, DeepSeek R1, Llama 3.3 70B,5 Mistral 7B, Gemma 2 9B
La configuración es idéntica en todos los dispositivos. Instala Ollama con un comando, descarga el modelo más grande que permita tu RAM, apunta Claude Code a localhost. Las mismas tres líneas de bash funcionan en un Jetson de $249 y en un EVO-X2 de $1,700:
1curl -fsSL https://ollama.com/install.sh | sh2ollama pull qwen3.6:27b3ANTHROPIC_BASE_URL=http://localhost:11434/v1 claude
Eso es todo. Claude Code ahora habla con tu modelo local en lugar de con los servidores de Anthropic, usa los mismos comandos, el mismo flujo de trabajo, cero costes de API, cero límites de velocidad, cero datos que salen de tu red.
PARTE 8
QUIÉN DEBE COMPRAR QUÉ: EL ÁRBOL DE DECISIÓN
El dispositivo equivocado es el que compras sin saber por qué. Empareja el dispositivo con cómo usas realmente la IA:
1Si pagas $20/mes por ChatGPT Plus → Jetson Orin Nano $2492Si pagas $200/mes en APIs de IA → Mac Mini M4 $5993Si eres un usuario intensivo de Claude Code → Mac Mini M4 Pro $1,3994 o RTX 3090 $7005Si necesitas modelos de 200B+ (trabajo frontera) → GMKtec EVO-X2 $1,7006Si ya tienes una PC gaming con 4090 → Salta el Mac, añade tarjeta7Si quieres GANAR en lugar de ahorrar → Configuración de granja de alquiler de GPU8Si quieres la máxima relación calidad-precio → RTX 3090 usada en PC existente9Si quieres cero configuración, que funcione → Mac Mini M410Si trabajas en el ámbito legal/médico (privacidad) → Cualquier dispositivo sirve, todo local
El camino híbrido es lo que la mayoría de la gente acaba haciendo. El hardware local maneja el 80% de las tareas diarias de forma gratuita. Una sola suscripción de $20/mes a ChatGPT Plus o Claude Pro se mantiene para el 20% restante, el razonamiento realmente difícil de nivel frontera donde cada punto de referencia importa. Coste mensual total: $23 en lugar de $459.
PARTE 9
RESULTADOS DE LOS PRIMEROS 6 MESES DE TOMÁS
1Mes 1: -$459 último mes del stack completo de suscripciones2Mes 2: -$680 compró RTX 3090 usada en OLX3Mes 3: +$41 mantuvo solo ChatGPT Plus $20, ahorró $4394Mes 4: +$620 listó la GPU en Vast.ai, primer alquiler de $5805Mes 5: +$687 ingresos consistentes de Vast6Mes 6: +$720 misma configuración, sin intervención
El efecto compuesto: en el mes 6, la GPU se ha pagado completamente a sí misma, ha reemplazado $459/mes en suscripciones y genera $500 a $700/mes adicionales en ingresos por alquiler. El cambio total del mes 1 al mes 6 es de $1,179/mes a su favor con el mismo hardware haciendo todo el trabajo.
En 12 meses, la diferencia es de $14,148 en flujo de caja en comparación con mantener el stack de suscripciones. En 3 años, son $42,000. De una sola tarjeta usada de 680 €.

PARTE 10
LA VENTANA
Hace seis meses, este artículo no habría sido posible. Los modelos no eran lo suficientemente pequeños. El hardware no era lo suficientemente barato. Las suscripciones no eran lo suficientemente caras. El código abierto no era lo suficientemente creíble. Las cuatro cosas cambiaron a la vez entre finales de 2025 y mediados de 2026.
Las empresas que construyeron IA durante los últimos tres años asumieron que siempre necesitarían sus centros de datos. Esa suposición se rompió. Una caja de $249 ejecuta modelos de 7B. Un Mac Mini de $599 ejecuta modelos de 14B. Una GPU usada de $700 ejecuta modelos que superan a Claude en puntos de referencia de visión. Un mini PC de $1,700 ejecuta 235 mil millones de parámetros localmente. El centro de datos se mudó a la sala de estar.
No necesitas elegir la opción más cara. No necesitas ser un desarrollador para usar ninguno de ellos. La configuración son tres comandos. El software es gratuito. La electricidad cuesta menos que un café al mes.
Las suscripciones tenían sentido cuando el hardware local no podía seguir el ritmo. El hardware se puso al día. Elige tu nivel y deja de pagar por la potencia de cálculo de otro.
Esta fue la parte 6 de una serie en curso sobre fuentes de ingresos y recortes de costes de IA de los que nadie está hablando adecuadamente. La parte 7 se publica la semana que viene y desglosa la configuración de la granja de alquiler de GPU: 8 tarjetas, un apartamento, $4,000-8,000 al mes en alquiler pasivo de potencia de cálculo de IA.
/Sigue a @antisadh para que aparezca en tu feed el día que se publique/





