LA MÁS BARATA CUESTA $249 Y EJECUTA MODELOS DE 7B TODO EL DÍA
sigue a
@antisadh antes de leer. Vienen 4 publicaciones más como esta este mes. Si no sigues, te pierdes el dinero.
Tomás tiene 28 años, vive en Oporto y trabajaba como ingeniero de QA en una fintech hasta que abrió su app bancaria en marzo y vio su tarjeta en -€187. Había estado pagando $459 al mes entre ChatGPT Pro, Claude Code Max, Cursor, GitHub Copilot y Gemini Advanced, y no se había dado cuenta del total hasta que su renta rebotó.
Esa misma noche compró una RTX 3090 usada en OLX por €680, canceló todo excepto un ChatGPT Plus de $20, y 4 meses después la tarjeta se había pagado dos veces. Ahora la misma GPU se alquila sola en Vast.ai mientras duerme y le genera $520 extra al mes.
Ejecuta modelos más grandes localmente de lo que Claude Code Max le servía.
Esto no es un lujo de nicho. Las Apple Stores literalmente se quedaron sin Mac Minis en el primer trimestre porque los desarrolladores las estaban convirtiendo en servidores de IA caseros. NVIDIA lanzó un kit de desarrollo de $249 que ejecuta modelos de 7B localmente. La CEO de AMD firmó personalmente una mini PC de $1,700 que ejecuta modelos más grandes que los que te da Claude Pro. Todo el stack de suscripciones que tenía sentido en 2024 se rompió a mediados de 2026, y casi nadie lo está explicando claramente.
PARTE 1
LOS $5,508 AL AÑO QUE LA MAYORÍA DE LOS DESARROLLADORES NO SABEN QUE ESTÁN PAGANDO
La mayoría de la gente no suma su gasto en IA. Las suscripciones se ven pequeñas individualmente y se esconden dentro de los estados de cuenta mensuales.
El stack que un usuario serio de IA usa en 2026:
1Claude Code Max (20x) $200/mes $2,400/año2ChatGPT Pro $200/mes $2,400/año3Gemini Advanced $20/mes $240/año4GitHub Copilot $19/mes $228/año5Cursor Pro $20/mes $240/año67Total para usuarios intensivos $459/mes $5,508/año
$5,508 al año. Por software que se ejecuta en la computadora de alguien más, envía tus datos a sus servidores y te limita la velocidad justo cuando más lo necesitas (lunes por la mañana, viernes por la tarde, el día del lanzamiento).
Cada dispositivo en el mapa de abajo convierte esa factura recurrente en una compra de hardware única más $2 a $9 al mes de electricidad. Las matemáticas son las mismas sin importar el nivel que elijas:
1Año 1: $5,508 ahorrados $249 a $1,700 gastados + $50 a $200 electricidad2Año 2: $11,016 ahorrados $100 electricidad3Año 3: $16,524 ahorrados $100 electricidad
Para el año 3, incluso el dispositivo más caro del mapa se ha pagado de 6 a 10 veces. Y eso sin considerar la ruta de ingresos por alquiler de la Parte 6.
PARTE 2
NIVEL 1: JETSON ORIN NANO SUPER, $249, EL PUNTO DE ENTRADA
Jensen Huang anunció esto a un precio que no tenía sentido: $249 por una computadora con una GPU NVIDIA dedicada más pequeña que una baraja de cartas. Se envía desde Amazon por menos de lo que cuesta una cena elegante.
Lo que ejecuta: Llama 3.2 (3B), Mistral 7B, Gemma 2 (9B), DeepSeek R1 (1.5B), Qwen 2.5 (7B). Todos gratis, todos locales, todos para siempre. Los modelos de 7B manejan alrededor del 80% de lo que la gente usa ChatGPT Plus a diario. Redactar, resumir, escribir scripts de código, preguntas y respuestas rápidas.
Lo que no maneja: razonamiento complejo de múltiples pasos, ventanas de contexto grandes de más de 8K tokens, nada que requiera inteligencia de modelo de frontera.
Especificaciones de un vistazo: 8GB de memoria unificada, 67 TOPS de rendimiento de IA, consumo de energía de 7 a 25W, aproximadamente $2 al mes de electricidad funcionando 24/7. El punto de equilibrio frente a una sola suscripción de ChatGPT Plus de $20/mes es de 13 meses. El punto de equilibrio frente a Claude Code Max es de 6 semanas.
Este es el dispositivo para alguien que paga $20/mes por ChatGPT Plus y solo quiere dejar de hacerlo.
PARTE 3
NIVEL 2: MAC MINI M4, $599, LA OPCIÓN POR DEFECTO
Las Apple Stores se quedaron sin Mac Minis a principios de 2026, y no fue por el lanzamiento de un producto. Los desarrolladores descubrieron que la arquitectura de memoria unificada dentro del chip M4 lo convierte en una de las máquinas de inferencia de IA más eficientes que puedes comprar a cualquier precio.
Dos niveles importan:
1Mac Mini M4 $599 16GB de memoria, ejecuta modelos de 8B cómodamente2Mac Mini M4 Pro $1,399 48GB de memoria, ejecuta modelos de 70B localmente
El modelo base de $599 ejecuta modelos de 8B parámetros cómodamente. El M4 Pro de $1,399 con 48GB ejecuta Llama 3.3 70B, que es lo más cercano a GPT-4 que puedes ejecutar en hardware de consumo hoy en día.
La razón por la que funciona tan bien: en una PC normal, los datos se copian constantemente entre la RAM del sistema y la VRAM de la GPU, lo que mata la velocidad de inferencia. En Apple Silicon, la CPU y la GPU comparten un solo grupo de memoria, por lo que el modelo se carga una vez y ambos procesadores leen desde el mismo lugar. Es por esto que un Mac Mini de $599 supera a las máquinas Windows de IA de $1,500 en los mismos benchmarks.
Un desarrollador documentó el cambio en XDA en abril de 2026, reemplazando Claude Pro con una configuración de Mac Mini M4 e informando que "la productividad no bajó ni un poco". El punto de equilibrio frente a Claude Code Max de $200/mes es de 3 meses en el modelo base, 7 meses en el Pro.

PARTE 4
NIVEL 3: RTX 3090 USADA, $700, LA MEJOR RELACIÓN CALIDAD-PRECIO
Cada GPU lanzada en los últimos dos años tiene el mismo defecto para la IA: no tiene suficiente memoria. La RTX 5090 tiene 32GB y cuesta $3,800. La RTX 4090 tiene 24GB y cuesta $2,000+. La RTX 3090 de cinco años, también con 24GB, cuesta $700 usada en eBay.
Para la IA local, la VRAM importa más que la generación del chip. Una tarjeta de 2020 con 24GB supera a una tarjeta de 2024 con 12GB todas las veces. La RTX 3090 no solo es barata, sino que es activamente mejor que sus hermanas más nuevas y pequeñas para este trabajo específico.
El modelo que hace que valga la pena: Qwen 3.6 27B. Alibaba lo lanzó silenciosamente a principios de 2026 y los benchmarks rompieron internet.
1Benchmark Qwen 3.6 27B (gratis, local) Claude 4.5 Opus ($200/mes)2RealWorldQA (visión) 84.1 77.03IFBench (instrucciones) 76.5 58.04AIME 2026 (matemáticas) 91.3 93.35MMLU (conocimiento) 83.2% ~82%
Un modelo de 27B gratuito y ejecutable localmente supera al buque insignia de Anthropic en visión por 7 puntos y en instrucciones por 18. Este es el dispositivo para alguien que ya tiene una PC y solo necesita insertar una tarjeta. Cómprala de vendedores de eBay con más del 98% de comentarios positivos, pide capturas de pantalla de GPU-Z para verificar errores de memoria y evita las tarjetas descritas como "provenientes de granjas de minería".
El punto de equilibrio frente a Claude Code Max es de 3.5 meses. Después de eso, la tarjeta es puro ahorro hasta que muere físicamente, lo que para una 3090 suele ser de 5 a 8 años.
PARTE 5
NIVEL 4: GMKtec EVO-X2, $1,700, NIVEL DE FRONTERA LOCALMENTE
En el CES 2026, la CEO de AMD, Lisa Su, se paró en el escenario con una pequeña caja negra detrás de ella. Unos meses después, en el Día del Desarrollador de IA de AMD en Shanghái, se acercó a ese mismo dispositivo y lo firmó personalmente. El dispositivo es el GMKtec EVO-X2.
Es el primer chip x86 jamás construido que puede ejecutar un modelo de 200 mil millones de parámetros en un solo silicio. Hasta 110GB de VRAM utilizable en Linux, suficiente para ejecutar Qwen3-235B completa y fluidamente, además de DeepSeek-V3 y Llama 3.3 70B sin trucos de cuantización.
1Modelo VRAM necesaria Resultado en EVO-X22Qwen3-235B ~110GB Se ejecuta completa, fluidamente3DeepSeek-V3 ~100GB Se ejecuta cómodamente4Llama 3.3 70B ~42GB Rápido, mucho margen5Qwen 3.6 27B ~16GB Muy rápido, para uso diario
La propia afirmación de AMD en CES: el chip superó a una NVIDIA RTX 5080 en más de 3x en la inferencia de DeepSeek R1. Una mini PC del tamaño de una lonchera superando a una tarjeta gráfica discreta de $1,000+ en cargas de trabajo de IA reales.
Este es el dispositivo para alguien cuyo uso de IA realmente necesita modelos de 70B a 235B ejecutándose localmente, es decir, las personas que pagan $200/mes por ChatGPT Pro y Claude Code Max combinados y agotan los límites de velocidad para el miércoles. El punto de equilibrio llega alrededor de los 9 a 10 meses. En tres años, el dispositivo ahorra aproximadamente $13,000 en comparación con mantenerse en suscripciones.
PARTE 6
NIVEL 5: INVIERTE EL HARDWARE, GANA EN LUGAR DE AHORRAR
El mismo hardware que ejecuta IA localmente puede alquilarse a otras personas que ejecutan IA. Los mineros de criptomonedas se dieron cuenta de esto primero. Después de que la fusión de Ethereum acabara con la minería de GPU de Bitcoin, apuntaron sus equipos a las plataformas de alquiler de inferencia de IA y comenzaron a ganar de 1.5x a 4x más por hora de lo que nunca ganaron minando criptomonedas.
1GPU Minería ($/mes) Alquiler de IA ($/mes) Diferencia2RTX 3090 $40 a 90 $200 a 400 4-5x3RTX 4090 $80 a 150 $500 a 1,000 5-7x4RTX 5090 $120 a 200 $700 a 1,400 5-7x5A100 80GB n/a $1,200 a 2,500 n/a6H100 n/a $2,500 a 5,000 n/a
Las plataformas que hacen esto: Vast.ai, Clore.ai, io.net, RunPod, Akash, Salad. Se quedan con el 15 al 25% y pagan el resto en dólares o stablecoins. Una RTX 4090 en un escritorio genera $500 a $1,000 al mes alquilándose sola. Una pequeña granja de 8 de ellas genera $4,000 a $8,000 al mes con un flujo de caja estable que las criptomonedas nunca entregaron.
Las granjas de minería que solían estar por todas partes en TikTok ya no minan Bitcoin, están cultivando tokens de IA para ChatGPT, Claude y Gemini a través de plataformas de alquiler. OpenAI y Anthropic compran silenciosamente ese poder de cómputo barato de las granjas y te lo venden por $200/mes.
Si ya tienes una 4090 o tienes el presupuesto para configurar una, esto cambia las matemáticas por completo. En lugar de ahorrar $200/mes, ganas $400 a $800/mes por tarjeta.

PARTE 7
UN SOLO STACK DE SOFTWARE QUE FUNCIONA EN TODOS LOS DISPOSITIVOS ANTERIORES
Independientemente del dispositivo que elijas, el stack de software es idéntico. Esta es una de las señales más fuertes de que la IA local ya está madura. No cinco herramientas competidoras, sino un stack limpio que funciona en todas partes.
1Runtime: Ollama (gratis, código abierto)2Interfaz: Open WebUI (ChatGPT privado en tu navegador)3Agente de código: Claude Code apuntando a Ollama local4Modelos: Qwen 3.6 27B, DeepSeek R1, Llama 3.3 70B,5 Mistral 7B, Gemma 2 9B
La configuración es idéntica en todos los dispositivos. Instala Ollama con un comando, descarga el modelo más grande que permita tu RAM, apunta Claude Code a localhost. Las mismas tres líneas de bash funcionan en un Jetson de $249 y un EVO-X2 de $1,700:
1curl -fsSL https://ollama.com/install.sh | sh2ollama pull qwen3.6:27b3ANTHROPIC_BASE_URL=http://localhost:11434/v1 claude
Eso es todo. Claude Code ahora habla con tu modelo local en lugar de los servidores de Anthropic, usa los mismos comandos, el mismo flujo de trabajo, cero costos de API, cero límites de velocidad, cero datos que salgan de tu red.
PARTE 8
QUIÉN DEBE COMPRAR QUÉ: EL ÁRBOL DE DECISIÓN
El dispositivo incorrecto es el que compras sin saber por qué. Empareja el dispositivo con cómo usas realmente la IA:
1Si pagas $20/mes por ChatGPT Plus → Jetson Orin Nano $2492Si pagas $200/mes en APIs de IA → Mac Mini M4 $5993Si eres un usuario intensivo de Claude Code → Mac Mini M4 Pro $1,3994 o RTX 3090 $7005Si necesitas modelos de 200B+ (trabajo de frontera) → GMKtec EVO-X2 $1,7006Si ya tienes una PC gaming con 4090 → Salta Mac, agrega tarjeta7Si quieres GANAR en lugar de ahorrar → Configuración de granja de alquiler de GPU8Si quieres el máximo valor por tu dinero → RTX 3090 usada en PC existente9Si quieres cero configuración, que funcione de inmediato → Mac Mini M410Si trabajas en el ámbito legal/médico (privacidad) → Cualquier dispositivo funciona, todo local
El camino híbrido es lo que la mayoría de la gente termina haciendo. El hardware local maneja el 80% de las tareas diarias de forma gratuita. Una sola suscripción de $20/mes de ChatGPT Plus o Claude Pro se queda para el 20% restante, el razonamiento de nivel de frontera realmente difícil donde cada punto de benchmark importa. Costo mensual total: $23 en lugar de $459.
PARTE 9
RESULTADOS DE LOS PRIMEROS 6 MESES DE TOMÁS
1Mes 1: -$459 último mes del stack completo de suscripciones2Mes 2: -$680 compró RTX 3090 usada en OLX3Mes 3: +$41 solo mantuvo ChatGPT Plus $20, ahorró $4394Mes 4: +$620 listó la GPU en Vast.ai, primer alquiler de $5805Mes 5: +$687 ingresos consistentes de Vast6Mes 6: +$720 misma configuración, sin intervención
El efecto compuesto: en el mes 6, la GPU se ha pagado por completo, reemplazó $459/mes en suscripciones y genera $500 a $700/mes adicionales en ingresos por alquiler. El cambio total del mes 1 al mes 6 es de $1,179/mes a su favor con el mismo hardware haciendo todo el trabajo.
En 12 meses, la diferencia es de $14,148 en flujo de caja en comparación con mantenerse en el stack de suscripciones. En 3 años, son $42,000. De una sola tarjeta usada de €680.

PARTE 10
LA VENTANA
Hace seis meses, este artículo no habría sido posible. Los modelos no eran lo suficientemente pequeños. El hardware no era lo suficientemente barato. Las suscripciones no eran lo suficientemente caras. El código abierto no era lo suficientemente creíble. Las cuatro cosas cambiaron a la vez entre finales de 2025 y mediados de 2026.
Las empresas que construyeron IA durante los últimos tres años asumieron que siempre necesitarían sus centros de datos. Esa suposición se rompió. Una caja de $249 ejecuta modelos de 7B. Un Mac Mini de $599 ejecuta modelos de 14B. Una GPU usada de $700 ejecuta modelos que superan a Claude en benchmarks de visión. Una mini PC de $1,700 ejecuta 235 mil millones de parámetros localmente. El centro de datos se mudó a la sala de estar.
No necesitas elegir la opción más cara. No necesitas ser un desarrollador para usar ninguno de ellos. La configuración son tres comandos. El software es gratuito. La electricidad cuesta menos que un café al mes.
Las suscripciones tenían sentido cuando el hardware local no podía seguir el ritmo. El hardware se puso al día. Elige tu nivel y deja de pagar por la computación de otra persona.
Esta fue la parte 6 de una serie en curso sobre fuentes de ingresos y reducciones de costos de IA de las que nadie está hablando adecuadamente. La parte 7 se publica la próxima semana y desglosa la configuración de la granja de alquiler de GPU: 8 tarjetas, un apartamento, $4,000-8,000 al mes en alquiler pasivo de cómputo de IA.
/Sigue a @antisadh para que llegue a tu feed el día que se publique/





