Tienes una máquina en casa que está inactiva ahora mismo. Una laptop con la tapa cerrada. Un Mac mini en un estante. Una vieja PC gamer bajo el escritorio que se enciende para Spotify y se apaga de nuevo. Consume energía, ocupa espacio y no contribuye en nada a tu vida.
Mientras tanto, tu estado de cuenta de la tarjeta de crédito muestra $412 al mes en suscripciones de IA. Claude Max, ChatGPT Pro, Cursor, Perplexity, dos transcriptores que olvidaste que contrataste, un "asistente de escritura" que usaste una vez. $4,944 al año para alquilar cómputo que cabe en un solo equipo de hardware que está en silencio en tu casa.
En 2026, esos dos hechos chocan. Los mismos modelos que están detrás de las suscripciones más caras del mercado ahora se ejecutan en hardware que cuesta menos de tres meses de la factura que están reemplazando. Y la máquina no solo ejecuta el modelo. Funciona mientras duermes, en un horario que tú estableces, haciendo trabajo que nunca tendrías tiempo de hacer tú mismo.
Este es el artículo que elige el hardware, elige el cerebro y te muestra lo que la caja realmente hace cuando dejas de ser quien aprieta los botones.
Elige la caja
Cuatro opciones que valen la pena comprar. Dos son computadoras silenciosas y pequeñas. Dos son tarjetas que metes en un escritorio que ya tienes.
La ruta silenciosa es más fácil. Mac mini M4, $599, es donde aterriza la mayoría de la gente. Toda configuración local de IA apunta aquí eventualmente por una decisión de diseño. Las PC normales copian datos entre la RAM del sistema y la VRAM de la GPU, y estás limitado por lo que tenga la tarjeta. Apple Silicon comparte un solo grupo de memoria. El modelo se carga una vez. Ambos procesadores leen del mismo lugar. La versión de $599 con 16 GB ejecuta modelos de 7-8B más rápido que las máquinas Windows que cuestan el doble. Sube a 32 GB para modelos de 14B. Sube al M4 Pro a $1,399 con 48 GB y estarás ejecutando modelos Llama de clase 70B en algo del tamaño de un sándwich. Consumo de energía de 8 a 25 W, el ventilador permanece en silencio, electricidad alrededor de $4 al mes. Esta es la caja si no quieres volver a pensar en hardware nunca más.

Mac Studio M3 Ultra, $4,199 es la versión sin concesiones de la misma idea. Configuración base de 96 GB de memoria unificada, máximo 192 GB. Por encima de esto estás en territorio de rack de servidores con seis cifras adjuntas. 192 GB carga los modelos de peso abierto más grandes que existen actualmente, en tamaño completo, sin trucos de compresión. La misma clase de peso que las suscripciones más caras del mercado. Electricidad a plena potencia alrededor de $14 al mes, punto de equilibrio contra una sola suscripción de $200/mes en el mes 22. Las máquinas duran de 7 a 10 años. Esta es la caja para alguien que acumula $400+ al mes en suscripciones hoy, o para alguien cuyo trabajo legalmente no puede salir de su dispositivo. Abogados, médicos, periodistas protegiendo fuentes, analistas financieros.

Si prefieres usar un escritorio que ya tienes, dos tarjetas. Tesla M40 24GB, $130 usado en eBay. Una tarjeta de centro de datos que NVIDIA lanzó en 2015 por $3,500. Jubilada hace tiempo de granjas de servidores, drenando hacia el mercado secundario por menos de $150. 24 GB de VRAM, lo mismo que una RTX 5090 nueva. Suficiente para ejecutar un modelo de 27B que se mantiene firme contra los modelos frontera en la mayoría de los benchmarks. Contras: no tiene salida de video, así que mantienes tu GPU principal para el monitor; no tiene ventilador incorporado, así que agrega $25 por un shrouded impreso en 3D y un Noctua; necesita un adaptador EPS a PCIe por $10. En total, alrededor de $165. Se paga solo en dos semanas contra una sola suscripción Pro.

RTX 3090 usada, $700. Para IA local, la VRAM importa más que la generación de la GPU, y la 3090 es la ganadora en precio por VRAM que existe en 2026. Una RTX 5090 nueva tiene 32 GB por $3,800. Una 4090 usada tiene 24 GB por $2,000. Una 3090 de cinco años tiene los mismos 24 GB que la 4090 y se vende entre $650 y $750. Mismo tamaño de modelo utilizable, 70 a 80% de la velocidad, un tercio del precio. Móntala en una PC gamer existente, total alrededor de $850, ejecuta un modelo de 27B a 25 a 30 tokens por segundo. Dos reglas al comprar tarjetas usadas: 98%+ de retroalimentación positiva del vendedor, y salta cualquier cosa que mencione minería. La operación a alta temperatura mata los chips de memoria. Jugar consume mucho menos.
Elige en una sola línea:
1quieres silencio, cero configuración, funciona para siempre -> Mac mini M4, $5992acumulas $400+/mes en suscripciones o privacidad obligada -> Mac Studio M3 Ultra, $4,1993tienes un escritorio, la entrada más barata posible -> Tesla M40, $1304tienes una PC gamer, mejor velocidad por tu dinero -> RTX 3090 usada, $700
Cualquiera que elijas, la instalación son tres comandos y son idénticos en todos los niveles:
1curl -fsSL https://ollama.com/install.sh | sh2ollama pull qwen2.5:32b3ANTHROPIC_BASE_URL=http://localhost:11434/v1 claude

Elige el cerebro
El hardware es el cuerpo. El pensamiento aún necesita una mente, y el truco que ahorra más dinero es usar más de uno.
Claude Sonnet es el peso pesado. Apúntalo a trabajos que necesitan razonamiento real. Extraer 15 fuentes y sopesar las afirmaciones más sólidas entre sí. Decidir a cuál de las 400 notas en tu bóveda se conecta un nuevo artículo. Alrededor de $3 por millón de tokens de entrada. Nada local lo iguala aún en pensamiento complejo de múltiples pasos.
Claude Haiku es la mano barata. Etiquetado. Verificaciones de cordura. Elegir cuál de tres opciones mostrar en tu resumen matutino. Aproximadamente 12 veces más barato que Sonnet. El tipo de trabajo que cuesta menos de un centavo por llamada.
Un modelo local, el que quepa en la VRAM de tu caja, es el trabajador que nunca envía datos fuera. Vive en tu máquina. Maneja transcripciones, resúmenes, cualquier cosa donde prefieras no pagar por token y no enviar contenido sensible a un servidor. Gratis después de la electricidad.
La regla que ahorra más dinero: no uses Sonnet para etiquetar, no uses Haiku para pensar, no envíes contenido privado fuera cuando lo local lo maneja bien. Tu caja te permite mezclar quemadores. No enciendes la freidora para hervir un huevo.
Lo que hace mientras duermes
Una caja que está siempre encendida se desperdicia si todo lo que hace es reemplazar una pestaña de chat. El objetivo es dejar que trabaje sin ti. Cada trabajo tiene la misma forma de cuatro partes:
1DISPARADOR -> algo lo inicia (horario, archivo nuevo, webhook)2HACER -> el trabajo ocurre3VERIFICAR -> resultado verificado contra una regla estricta4ITERAR -> arreglar lo que falló, o detenerse si pasa
Tres trabajos que vale la pena configurar el primer fin de semana.
El guardián. Vigila tu bandeja de entrada. Cada nuevo correo se clasifica en tres montones: necesita-respuesta, FYI, basura. Se escribe un borrador de respuesta de dos líneas para el primer montón para que solo tengas que aprobarlo. Te despiertas con cuatro respuestas preescritas, presionas enviar en tres, editas una. Bandeja de entrada terminada en siete minutos.
El cartógrafo. Vive en tu carpeta de notas. Cada artículo que guardas, cada enlace de YouTube que dejas caer, cada transcripción de reunión que aterriza allí se procesa: resumen de 1 línea, tres afirmaciones principales, la cita más fuerte extraída, y la nueva nota se vincula a notas existentes sobre el mismo tema. Regla de verificación: la nota tiene las cuatro partes y al menos un enlace wiki a una nota existente. El relleno se etiqueta como "señal baja" y se salta. Después de dos meses, tu pila de "leer después" se convierte en un archivo buscable de argumentos y citas en lugar de un cementerio de pestañas.

El vigilante. No hace nada la mayor parte del tiempo. Ese es el trabajo. Vigila una lista de cosas que le dijiste que vigilara. Una palabra clave en un canal de Telegram. Una oferta de trabajo específica. Un precio en Amazon. El vigilante te notifica en el teléfono solo cuando algo realmente supera un umbral que estableciste. Se ejecuta en Haiku. Cuesta menos de un centavo al día.
Las tres reglas que separan los trabajos que sobreviven de los trabajos que silenciosamente queman dinero: la verificación tiene que ser una regla estricta, no una sensación. El trabajo tiene que recordar lo que intentó. El trabajo tiene que saber cuándo rendirse. Salta cualquiera de esas y te despiertas con una factura de tokens en lugar de un resultado.
Las cuentas
1Hardware (una vez) $130 a $4,1992Electricidad $4 a $14 / mes3Opcional: mantener UNA suscripción $20 / mes
Pila de suscripciones anterior: $412/mes, $4,944/año.
Nueva pila con la entrada más barata: $130 de hardware + $96/año de electricidad + $240/año por una suscripción mantenida = $466 en el primer año, $336 cada año después. Eso es un 90% de descuento en la factura, el primer año, incluyendo la caja. Incluso la Mac Studio alcanza el punto de equilibrio contra una sola suscripción de $200/mes en el mes 22, y después de eso son ahorros puros durante la década que sigue funcionando.
Prueba uno antes de comprar algo
Puedes sentir un trabajo ahora mismo, en cualquier chat, con solo un prompt:
1Trabajarás en un bucle hasta que la tarea cumpla con el estándar.23TAREA: [describe exactamente lo que quieres que se produzca]45CRITERIOS DE ÉXITO (estrictos, sin pases suaves):6- [criterio 1]7- [criterio 2]8- [criterio 3]910PROTOCOLO DE BUCLE, repite cada turno:111. PLANEA - indica el único siguiente paso.122. HAZ - produce o mejora el trabajo.133. VERIFICA - califica del 1 al 10 cada criterio, brutalmente honesto.144. DECIDE - si cada calificación es 8+, imprime "FINAL" y detente.15 De lo contrario, imprime "ITERANDO" y arregla el punto más débil.1617Nunca lo des por terminado hasta que cada criterio sea 8+.18No me hagas preguntas. Toma una suposición sensata y continúa.
Redacta, se califica a sí mismo, encuentra el punto débil, reescribe, repite. Eso es un trabajo, construido con un párrafo. Lo que falta es la parte que importa: todavía eres el disparador. Cierra la pestaña y desaparece.
Si ejecutas algo como esto manualmente tres veces en una semana, se ha ganado un lugar permanente en la caja. Si no lo usas dos veces, ningún hardware lo salva.
El orden en que hacer esto
Consigue que una ejecución manual sea confiable en un chat normal. Conviértelo en un script. Envuelve el script en una puerta de verificación real y una condición de parada real. Solo entonces ponlo en un horario. Saltar adelante es exactamente cómo un trabajo se ejecuta toda la noche con una entrada incorrecta y silenciosamente te cuesta dinero mientras duermes.
El punto
La computadora en tu casa que no hace nada 23 horas al día era la máquina equivocada. Estaba inactiva porque eras lo único que le decía qué hacer. La máquina correcta no espera. Funciona mientras cenas, mientras duermes, mientras estás en una reunión que no tiene nada que ver con ella. El trabajo aparece en tu teléfono por la mañana y tú decides qué hacer con él.
Deja de alquilar cómputo que cabe en una GPU de $130. Compra la caja. Duerme mientras el trabajo se hace.
Si quieres más análisis como este, publico uno cada dos días.
Telegram — https://t.me/GipArcAI





