Qué aprender, construir y evitar en agentes de IA (2026)

Qué aprender, construir y evitar en agentes de IA (2026)

@rohit4verse
INGLÉShace 2 semanas · 29 abr 2026

AI features

2.5M
1.6K
242
46
6.3K

TL;DR

Un análisis estratégico profundo sobre el desarrollo de agentes de IA, centrado en primitivas duraderas como la ingeniería de contexto y MCP, mientras se aconseja a los desarrolladores evitar marcos impulsados por el hype en favor de una evaluación y un sandboxing robustos.

Cada día trae un nuevo framework, un nuevo benchmark, un lanzamiento "10x". La pregunta deja de ser "cómo me mantengo al día". Se convierte en: ¿qué es realmente señal aquí, y qué es ruido disfrazado de urgencia?

Cada hoja de ruta queda obsoleta un mes después del lanzamiento. El framework que dominaste el trimestre pasado ahora es legacy. El benchmark para el que optimizaste fue superado y reemplazado. Nos condicionaron a seguir un camino convencional: un stack con temas y niveles, una secuencia de trabajos y antigüedades, un ascenso lento. La IA reescribió ese lienzo. Cualquiera con los prompts adecuados y el buen gusto adecuado puede ahora entregar trabajo que antes le llevaba un sprint a un ingeniero con dos años de experiencia.

La experiencia sigue importando. Nada reemplaza haber visto sistemas romperse, haber depurado una fuga de memoria a las 2 a.m., haber argumentado por una elección aburrida sobre una ingeniosa y haber tenido razón. Ese tipo de buen gusto se acumula. Lo que dejó de acumularse como antes: conocer la superficie de la API del framework de esta semana. Dentro de seis meses será diferente. Las personas que ganan en dos años eligieron primitivas duraderas temprano y dejaron que el resto pasara de largo.

He pasado dos años construyendo en este espacio, conseguí múltiples ofertas por encima de $250k, y ahora dirijo el área técnica en una empresa en modo sigiloso. Esto es lo que le enviaría a alguien que pregunta "¿a qué debería prestar atención realmente ahora mismo?"

No es una hoja de ruta. El campo de los agentes aún no tiene un destino. Los grandes laboratorios iteran en público, lanzan regresiones a millones de usuarios, escriben autopsias, parchean en vivo. Si el equipo detrás de Claude Code puede lanzar una regresión de rendimiento del 47% y solo detectarla después de que la comunidad de usuarios lo haga, la idea de que hay un mapa estable debajo de todo esto es ficción. Todos lo están descubriendo. Las startups están floreciendo porque los gigantes tampoco saben. Los que no programan se están asociando con agentes y entregando cosas los viernes que los doctores en ML llamaban imposibles los martes.

Lo interesante de este momento es lo que hace a la cuestión de las credenciales. El camino convencional te optimizaba para credenciales: título, rol junior, rol senior, rol staff, la lenta acumulación de rango. Eso tenía sentido cuando el campo debajo de ti no se movía. El campo ahora se mueve bajo todos por igual. La diferencia entre un joven de 22 años que envía demos de agentes en público y un ingeniero senior de 35 años ya no son diez años de dominio acumulado del stack. El joven de 22 años tiene el mismo lienzo en blanco que el senior, y lo que se acumula para cualquiera de ellos es la disposición a enviar, más la pequeña lista de primitivas que no quedan obsoletas en un trimestre.

Ese es el replanteamiento sobre el que se construye todo este artículo. Lo que sigue es una forma de pensar sobre qué primitivas merecen tu atención y qué lanzamientos dejar pasar. Elige lo que encaje. Deja lo que no.

El filtro que realmente funciona

No puedes mantenerte al día con lanzamientos semanales. No deberías intentarlo. Lo que necesitas es un filtro, no un feed.

Cinco pruebas se han mantenido vigentes durante los últimos 18 meses. Pasa un lanzamiento por ellas antes de dejar que toque tu stack.

¿Importará esto dentro de dos años? Si es un wrapper alrededor de un modelo frontera, un flag de CLI, o "Devin pero para X", la respuesta es casi siempre no. Si es una primitiva (un protocolo, un patrón de memoria, un enfoque de sandboxing), la respuesta es más a menudo sí. La vida media de los wrappers es corta. La vida media de las primitivas es de años.

¿Alguien que respetes ha construido algo real sobre esto y ha escrito honestamente al respecto? Los posts de marketing no cuentan. Las autopsias sí. Un blog llamado "probamos X en producción y esto es lo que se rompió" vale diez anuncios de lanzamiento. La buena señal en este campo siempre la escribe alguien que ha perdido un fin de semana con ello.

¿Adoptarlo requiere que tires tu trazabilidad, tus reintentos, tu configuración, tu autenticación? Si es así, es un framework que intenta ser una plataforma. Los frameworks-que-intentan-ser-plataformas tienen una tasa de mortalidad del 90%. Las buenas primitivas encajan en tu sistema existente sin forzar una migración.

¿Qué te cuesta saltarte esto durante seis meses? Para la mayoría de los lanzamientos, la respuesta es nada. Sabrás más en seis meses. La versión ganadora será más clara. Esta es la prueba que te permite saltarte el 90% de los lanzamientos sin ansiedad, y la que la mayoría de la gente se niega a hacer porque saltarse se siente como quedarse atrás. No lo es.

¿Puedes medir si realmente ayuda a tus agentes? Si no puedes, estás adivinando. Los equipos sin evaluaciones funcionan con vibraciones y lanzan regresiones. Los equipos con evaluaciones pueden dejar que los datos les digan si GPT-5.5 u Opus 4.7 gana en su carga de trabajo específica esta semana.

Si adoptas un hábito de todo este artículo, que sea este: cuando algo nuevo se lance, escribe lo que necesitarías ver en seis meses para creer que importa. Luego vuelve y verifica. La mayoría de las veces la pregunta se habrá respondido sola, y habrás gastado tu atención en cosas que se acumulan.

La habilidad subyacente a estas pruebas es más difícil de nombrar que cualquiera de ellas. Es la disposición a ser poco cool sobre lo que no eliges. El framework que se vuelve viral en Hacker News esta semana tendrá un ejército de animadores durante catorce días, y todos sonarán inteligentes. Seis meses después, la mitad de esos frameworks no tienen mantenimiento y los animadores se han ido. Las personas que no se involucraron ahorraron su atención para cosas que sobrevivieron la prueba de ser aburridas después de que pasó el hype del lanzamiento. Esa postura, contenerse, observar, decir "lo sabré en seis meses", es la habilidad profesional real de este campo. Todos pueden leer lanzamientos. Casi nadie es bueno para no reaccionar ante ellos.

Qué aprender

Conceptos. Patrones. La forma de las cosas. Estas son las ideas que pagan rendimientos compuestos. Sobreviven a cambios de modelo, cambios de framework, cambios de paradigma. Entiéndelos profundamente y podrás aprender cualquier nueva herramienta en un fin de semana. Saltátelos y estarás perpetuamente reaprendiendo mecánicas superficiales.

Ingeniería de contexto

El cambio de nombre más importante de los últimos dos años fue que "ingeniería de prompts" se convirtió en "ingeniería de contexto". El cambio es real, no cosmético.

El modelo ya no es algo para lo que elaboras una instrucción inteligente. Es algo para lo que ensamblas un contexto de trabajo en cada paso. Ese contexto son instrucciones del sistema, esquemas de herramientas, documentos recuperados, salidas previas de herramientas, estado del bloc de notas e historial comprimido, todo a la vez. El comportamiento del agente es una propiedad emergente de lo que pones en la ventana.

Internaliza esto: el contexto es estado. Cada token de ruido irrelevante te cuesta calidad de razonamiento. La podredumbre del contexto es un fallo de producción real. En el paso ocho de una tarea de diez pasos, el objetivo original puede quedar enterrado bajo la salida de la herramienta. Los equipos que envían agentes fiables resumen, comprimen, podan activamente. Versionan sus descripciones de herramientas. Almacenan en caché las partes estáticas y se niegan a almacenar en caché las partes que cambian. Piensan en la ventana de contexto como un ingeniero experimentado piensa en la RAM.

Una forma concreta de sentir esto: toma cualquier agente en producción y activa el registro de trazado completo. Mira el contexto en el paso uno. Mira el contexto en el paso siete. Cuenta cuántos de esos tokens siguen ganándose su lugar. La primera vez que hagas esto, te sentirás avergonzado. Luego irás a arreglarlo, y el mismo agente se volverá notablemente más fiable sin ningún cambio en el modelo o el prompt.

Si lees algo sobre esto, lee "Effective Context Engineering for AI Agents" de Anthropic. Luego lee su autopsia de investigación multiagente, que pone números sobre cuánto importa el aislamiento del contexto una vez que escalas.

Diseño de herramientas

Las herramientas son donde los agentes se encuentran con tu negocio. El modelo elige herramientas basándose en nombres y descripciones. El modelo reintenta basándose en mensajes de error. El modelo falla o tiene éxito según si el contrato de la herramienta coincide con lo que un LLM es bueno expresando.

De cinco a diez herramientas bien nombradas vencen a veinte mediocres. Los nombres de las herramientas deberían leerse como frases verbales en inglés. Las descripciones deberían incluir cuándo usar la herramienta y cuándo no. Los mensajes de error deberían ser retroalimentación sobre la que el modelo pueda actuar. "Se excedió el máximo de 500 tokens, intenta resumir primero" vence a "Error: 400 Bad Request" por un margen enorme. Un equipo en la investigación pública reportó una reducción del 40% en los bucles de reintento después de reescribir sus mensajes de error solamente.

"Writing tools for agents" de Anthropic es el punto de partida correcto. Después de eso, instrumenta tus propias herramientas y mira los patrones de llamada reales. Las mayores ganancias en la fiabilidad de los agentes son casi siempre del lado de las herramientas. La gente sigue ajustando prompts e ignorando el lugar donde reside el apalancamiento real.

El patrón orquestador-subagente

El debate multiagente de 2024 y 2025 terminó con una síntesis que todos envían ahora. Los sistemas multiagente ingenuos, donde múltiples agentes escriben en un estado compartido en paralelo, fallan catastróficamente porque los errores se acumulan. Los bucles de un solo agente escalan más de lo que esperarías. Hay una forma multiagente que funciona en producción: un agente orquestador que delega tareas de solo lectura de alcance limitado a subagentes aislados, luego sintetiza sus resultados.

Así es como funciona el sistema de investigación de Anthropic. Así es como funcionan los subagentes de Claude Code. Es el patrón que Spring AI y la mayoría de los frameworks de producción ahora estandarizan. Los subagentes obtienen contextos pequeños y enfocados. No pueden mutar el estado compartido. El orquestador posee las escrituras.

El ensayo "Don't Build Multi-Agents" de Cognition y "How we built our multi-agent research system" de Anthropic parecen opuestos y están diciendo lo mismo con diferentes vocabularios. Lee ambos.

Por defecto, usa un solo agente. Recurre al orquestador-subagente solo cuando el agente único encuentra un muro real: presión de la ventana de contexto, latencia de llamadas secuenciales a herramientas, o heterogeneidad de tareas que realmente se beneficia de contextos enfocados. Construir esto antes de haber sentido el dolor envía complejidad que no necesitas.

Evaluaciones y conjuntos de datos dorados

Cada equipo que envía agentes fiables tiene evaluaciones. Cada equipo que no, no las tiene. Este es el hábito de mayor apalancamiento en el campo, y es lo más infra-invertido que veo en cada empresa que he examinado.

Lo que funciona: cosecha tus trazas de producción, etiqueta los fallos, trata eso como un conjunto de regresión. Añade a él cada vez que un nuevo fallo se envía. Usa LLM-como-juez para las partes subjetivas, coincidencia exacta o comprobaciones programáticas para el resto. Ejecuta el conjunto antes de cualquier cambio de prompt, modelo o herramienta. El blog de ingeniería de Spotify reportó que su capa de juez veta alrededor del 25% de las salidas de los agentes antes de que se envíen. Sin ella, uno de cada cuatro resultados malos habría llegado a los usuarios.

El modelo mental que hace que esto se mantenga: una evaluación es una prueba unitaria que mantiene honesto al agente mientras todo lo demás cambia debajo de él. El modelo obtiene una nueva versión. El framework lanza un cambio disruptivo. El proveedor depreca un endpoint. Tus evaluaciones son lo único que te dice si tu agente sigue haciendo su trabajo. Sin ellas, estás escribiendo un sistema cuya corrección depende de la buena voluntad de un objetivo en movimiento.

Los frameworks de evaluación (Braintrust, Langfuse evals, LangSmith) están bien. Ninguno de ellos es el cuello de botella. El cuello de botella es tener un conjunto etiquetado en primer lugar. Construye eso el día uno, antes de escalar cualquier cosa. Los primeros cincuenta ejemplos se pueden etiquetar a mano en una tarde. No hay excusa.

Sistema-de-archivos-como-estado y el bucle pensar-actuar-observar

Para cualquier agente que haga trabajo real de múltiples pasos, la arquitectura duradera es: pensar, actuar, observar, repetir. El sistema de archivos o un almacén estructurado como fuente de verdad. Cada acción registrada y reproducible. Claude Code, Cursor, Devin, Aider, OpenHands, goose. Todos convergieron en esto por una razón.

El modelo no tiene estado. El arnés tiene que tener estado. El sistema de archivos es una primitiva con estado que todo desarrollador ya entiende. Una vez que aceptas este marco, toda la disciplina del arnés (puntos de control, reanudabilidad, verificación de subagentes, ejecución en sandbox) surge de tomar el patrón en serio.

Lo más profundo que esto te está enseñando: el arnés está haciendo más trabajo que el modelo en cualquier agente de producción que valga su factura de cómputo. El modelo elige la siguiente acción. El arnés la valida, la ejecuta en un sandbox, captura la salida, decide qué retroalimentar, decide cuándo detenerse, decide cuándo hacer un punto de control, decide cuándo generar un subagente. Cambia el modelo por uno diferente de calidad similar y un buen arnés sigue enviando. Cambia el arnés por uno peor y el mejor modelo del mundo sigue produciendo un agente que olvida aleatoriamente lo que estaba haciendo.

Si estás construyendo algo más elaborado que una llamada de herramienta única, el arnés es donde deberías estar gastando tu tiempo. El modelo es un componente dentro de él.

MCP, conceptualmente

No solo aprendas cómo llamar a servidores MCP. Aprende el modelo. Una separación limpia entre capacidades del agente, herramientas y recursos, con una historia extensible de autenticación y transporte debajo. Una vez que lo entiendes, cada otro "framework de integración de agentes" que veas te parecerá una versión peor de MCP, y ahorrarás el tiempo de evaluar cada uno.

La Fundación Linux ahora lo gestiona. Todos los principales proveedores de modelos lo respaldan. La comparación "USB-C de la IA" es más precisa que irónica ahora.

Sandboxing como primitiva

Cada agente de codificación en producción se ejecuta en un sandbox. Cada agente de navegador ha sido golpeado por inyección indirecta de prompts. Cada agente multiinquilino ha tenido un error de alcance de permisos enviado en algún momento. Trata el sandboxing como infraestructura primitiva, no como una característica que añades cuando un cliente lo pide.

Aprende lo básico. Aislamiento de procesos. Controles de egreso de red. Alcance de secretos. Límites de autenticación entre agente y herramienta. Los equipos que añaden esto después de una revisión de seguridad del cliente son los equipos que pierden el trato. Los equipos que lo construyen desde la semana uno pasan la adquisición empresarial sin sudar.

Con qué construir

Selecciones específicas, abril de 2026. Estas cambiarán, pero lentamente. Elige de forma aburrida aquí.

Orquestación

LangGraph es el predeterminado de producción. Aproximadamente un tercio de las grandes empresas que ejecutan agentes lo usan. Las abstracciones coinciden con la forma real de los sistemas de agentes: estado tipado, bordes condicionales, flujos de trabajo duraderos, puntos de control con intervención humana. La desventaja es la verbosidad. La ventaja es que la verbosidad coincide con lo que realmente necesitas controlar una vez que un agente está en producción.

Si vives en TypeScript, Mastra es la elección de facto. El modelo mental más limpio en ese ecosistema.

Si tu equipo ama Pydantic y quiere seguridad de tipos como ciudadano de primera clase, Pydantic AI es una elección razonable para proyectos nuevos. Alcanzó v1.0 a finales de 2025 y el impulso es real.

Para trabajo nativo del proveedor (uso de computadora, voz, tiempo real), usa Claude Agent SDK o OpenAI Agents SDK dentro de tus nodos de LangGraph. No intentes hacer de ninguno el orquestador de nivel superior para un sistema heterogéneo. Están optimizados para su carril.

Capa de protocolo

MCP, punto final. Construye tus integraciones de herramientas como servidores MCP. Consume integraciones externas de la misma manera. El registro ha cruzado el punto donde casi siempre puedes encontrar un servidor antes de necesitar construir uno. Cablear fontanería de herramientas personalizada en 2026 paga un impuesto por nada.

Memoria

Elige por nivel de autonomía, no por hype.

Mem0 para personalización estilo chat. Preferencias de usuario, historial ligero. Zep para sistemas conversacionales de producción donde el estado evoluciona y necesitas seguimiento de entidades. Letta cuando un agente mantiene coherencia a través de días o semanas de trabajo. La mayoría de los equipos no necesitarán esto. Los que lo necesitan, necesitan exactamente esto.

El error es buscar un framework de memoria antes de tener un problema de memoria. Comienza con lo que tu ventana de contexto puede contener más un almacén vectorial. Añade un sistema de memoria solo cuando puedas articular el modo de fallo que resuelve.

Observabilidad y evaluaciones

Langfuse es el predeterminado de código abierto. Auto-alojable, con licencia MIT, cubre trazado, versionado de prompts y evaluaciones básicas de LLM-como-juez. Si ya eres un taller de LangChain, LangSmith se integra más estrechamente. Braintrust es la elección correcta para flujos de trabajo de evaluación estilo investigación con comparaciones rigurosas. OpenLLMetry / Traceloop es la respuesta si necesitas instrumentación OpenTelemetry neutral al proveedor en un stack políglota.

Quieres tanto trazado como evaluaciones. El trazado responde "¿qué hizo realmente el agente?" Las evaluaciones responden "¿es el agente mejor o peor que ayer?" No envíes sin ambos. El costo de operar a ciegas es diez veces el costo de cablear esto correctamente el día uno.

Runtime y sandbox

E2B para ejecución de código en sandbox general. Browserbase (junto con Stagehand) para automatización de navegador. Anthropic Computer Use cuando necesitas control de escritorio a nivel de SO real. Modal para ráfagas de corta duración. No ejecutes código sin sandbox. Nunca. El radio de explosión de un solo agente con inyección de prompts en tu entorno de producción es una historia que no quieres contar.

Modelos

La persecución de benchmarks es agotadora y en gran medida inútil. Pragmáticamente, en abril de 2026:

Claude Opus 4.7 y Sonnet 4.6 para uso fiable de herramientas, coherencia de múltiples pasos y recuperación elegante de fallos. Sonnet es el punto óptimo de costo-rendimiento para la mayoría de las cargas de trabajo. GPT-5.4 y 5.5 cuando necesitas el razonamiento más fuerte de CLI/terminal o vives en la infraestructura de OpenAI. Gemini 2.5 y 3 para trabajos pesados de contexto largo o multimodales. DeepSeek-V3.2 o Qwen 3.6 cuando el costo importa más que el rendimiento máximo, especialmente para tareas estrechas y bien definidas.

Trata los modelos como intercambiables. Si tu agente solo funciona con un modelo, eso es un olor, no un foso. Usa evaluaciones para decidir qué desplegar. Reevalúa cada trimestre, no cada semana.

Qué saltarse

Te dirán que aprendas y construyas con todo esto. No necesitas hacerlo. El costo de saltarse es bajo. El tiempo ahorrado es grande.

AutoGen y AG2 para producción. El framework de Microsoft pasó a mantenimiento comunitario, los lanzamientos se estancaron, las abstracciones no coinciden con lo que los equipos de producción realmente necesitan. Está bien para exploración académica. No ancles un producto en ello.

CrewAI para nuevas construcciones en producción. Está en todas partes porque se demuestra fácilmente. Los ingenieros que construyen sistemas reales se han movido fuera de él. Úsalo para prototipos si quieres. No te comprometas con él.

Microsoft Semantic Kernel a menos que estés bloqueado en el stack empresarial de Microsoft y a tus compradores les importe que lo estés. No es hacia donde se dirige el ecosistema.

DSPy a menos que estés específicamente optimizando programas de prompts a escala. Mérito filosófico, audiencia de nicho. No es un framework de agentes general. No lo elijas como tal.

Agentes de escritura de código independientes como tu elección de arquitectura. Código-como-acción es investigación interesante. Aún no es un patrón predeterminado de producción, y lucharás batallas de herramientas y seguridad que tus competidores no tienen.

Propuestas de "agente autónomo". El linaje de AutoGPT y BabyAGI está muerto en forma de producto. El marco honesto en el que la industria se ha asentado es "ingeniería agentica": supervisada, limitada, evaluada. Cualquiera que todavía venda agentes autónomos de desplegar-y-olvidar en 2026 te está vendiendo 2023.

Tiendas de aplicaciones y mercados de agentes. Prometidos desde 2023, nunca lograron tracción empresarial. Las empresas no compran agentes genéricos preconstruidos. Compran agentes verticales vinculados a resultados, o construyen los suyos propios. No estructures tu negocio en torno a un sueño de tienda de aplicaciones.

Plataformas empresariales horizontales de "construye cualquier agente" como cliente (Google Agentspace, AWS Bedrock Agents, nivel de Microsoft Copilot Studio). Serán útiles eventualmente. Ahora mismo son confusas, de envío lento, y las matemáticas de comprar versus construir aún favorecen construir el agente estrecho tú mismo o comprar el vertical. Salesforce Agentforce y ServiceNow Now Assist son excepciones porque ganan al estar incrustados en sistemas de flujo de trabajo que ya usas.

Persecución de líderes de SWE-bench y OSWorld. Investigadores de Berkeley documentaron a lo largo de 2025 que casi todos los benchmarks públicos pueden ser superados sin resolver la tarea subyacente. Los equipos ahora usan Terminal-Bench 2.0 y sus propias evaluaciones internas como la señal real. Trata los saltos de un solo número en benchmarks con escepticismo por defecto.

Arquitecturas multiagente paralelas ingenuas. Cinco agentes charlando sobre memoria compartida se ve impresionante en una demo y se desmorona en producción. Si no puedes dibujar un diagrama limpio de orquestador-subagente con límites de lectura/escritura en una servilleta, no lo envíes.

Precios SaaS por asiento para nuevos productos de agentes. El mercado se movió a precios basados en resultados y uso. Fijar precio por asiento deja dinero sobre la mesa y señala a los compradores que no confías en tu propio producto para entregar resultados.

El próximo framework que veas en Hacker News esta semana. Espera seis meses. Si todavía importa, será obvio. Si no, te ahorraste una migración.

Cómo moverse realmente

Si estás tratando de adoptar agentes, no solo mantenerte al día con ellos, esta secuencia funciona. Es aburrida. Funciona.

Elige un resultado que ya importe. No un proyecto lunático. No un proyecto horizontal de "plataforma de agentes". Algo medible que a tu negocio ya le importe. Desviar tickets de soporte. Redactar una primera revisión legal. Calificar leads entrantes. Generar informes mensuales. El agente tiene éxito cuando ese resultado se mueve. Esto se convierte en tu objetivo de evaluación el día uno.

La razón por la que este paso importa más que cualquier otra cosa es que limita cada decisión subsiguiente. Con un resultado específico, la pregunta de "qué framework" deja de ser filosófica. Eliges el que entregue tu resultado más rápido. La pregunta de "qué modelo" deja de ser un argumento de benchmark. Eliges el que tus evaluaciones digan que funciona en este trabajo específico. La pregunta de "necesitamos memoria / subagentes / un arnés personalizado" deja de ser un experimento mental. Solo añades lo que tus modos de fallo específicos requieran. Los equipos que saltan este paso terminan construyendo plataformas horizontales que nadie pidió. Los equipos que lo toman en serio terminan enviando un solo agente estrecho que se paga a sí mismo en un trimestre, y ese único agente enviado les enseña más sobre el campo que dos años de lectura.

Configura trazado y evaluaciones antes de enviar cualquier cosa. Elige Langfuse o LangSmith. Conéctalos. Construye un pequeño conjunto de datos dorado a mano si es necesario. Cincuenta ejemplos etiquetados son suficientes para empezar. No podrás mejorar lo que no puedes medir. El costo de construir esto después es aproximadamente 10 veces el costo de construirlo ahora.

Comienza con un bucle de un solo agente. Elige LangGraph o Pydantic AI. Elige Claude Sonnet 4.6 o GPT-5 como modelo. Dale al agente de tres a siete herramientas bien diseñadas. Dale el sistema de archivos o una base de datos como estado. Envía a una audiencia pequeña. Observa las trazas.

Trata al agente como un producto, no como un proyecto. Fallará de maneras que no predijiste. Esos fallos son tu hoja de ruta. Construye el conjunto de regresión a partir de trazas reales de producción. Cada cambio de prompt, cada cambio de modelo, cada cambio de herramienta pasa por evaluaciones antes del despliegue. Aquí es donde la mayoría de los equipos subinvierten. Aquí es de donde proviene la mayor parte de la fiabilidad.

Añade alcance solo cuando te lo hayas ganado. Los subagentes entran cuando el contexto es el cuello de botella. Los frameworks de memoria entran cuando el contexto de una sola ventana no puede contener lo que necesitas. El uso de computadora o navegador entra cuando las APIs subyacentes realmente no están ahí. No pre-arquitectures estos. Deja que los modos de fallo los atraigan.

Elige infraestructura aburrida. MCP para herramientas. E2B o Browserbase para sandboxes. Postgres o cualquier almacén de datos que ya ejecutes para el estado. Tu pila de autenticación y observabilidad existente. La infraestructura exótica rara vez es la victoria. La disciplina lo es.

Observa tu economía unitaria desde el día uno. Costos por acción. Tasas de acierto de caché. Costos de bucles de reintento. Distribución de llamadas a modelos. Los agentes parecen baratos en PoC y explotan a escala 100x a menos que instrumentes el costo por resultado desde el principio. Un PoC de $0.50/ejecución se convierte en $50K/mes a volumen moderado. Los equipos que no lo ven venir tienen una reunión con el CFO que no disfrutan.

Reevalúa modelos trimestralmente, no semanalmente. Bloquéate por un trimestre. Al final del trimestre, ejecuta tu conjunto de evaluación contra la frontera actual y cambia si los datos dicen que cambies. Obtienes el beneficio de la mejora del modelo sin el caos de perseguir cada lanzamiento.

Leer la marea

Indicadores concretos de que algo es señal:

(Nota: El texto original termina con "Concrete tells that something is signal:" y luego no hay más contenido. Asumo que es un corte, pero debo traducir lo que hay. En el original, después de "Concrete tells that something is signal:" no hay más texto. Por lo tanto, traduzco esa línea y termino.)

Indicadores concretos de que algo es señal:

Un equipo de ingeniería respetado escribe un postmortem con números, no solo afirmaciones de adopción. Es un primitivo (protocolo, patrón, infraestructura), no un envoltorio o paquete. Interopera con lo que ya ejecutas en lugar de reemplazarlo. La propuesta describe un modo de fallo que resuelve, no una capacidad que habilita. Ha existido el tiempo suficiente para que se haya escrito un artículo de blog sobre "lo que no funcionó".

Indicadores concretos de que algo es ruido:

  • Videos de demostración sin casos de estudio en producción después de treinta días.
  • Saltos en benchmarks demasiado limpios para ser reales.
  • Propuestas que usan "autónomo", "sistema operativo de agentes" o "construye cualquier agente" sin calificación.
  • Frameworks cuyos documentos asumen que tirarás tu trazado, autenticación y configuración existentes.
  • Números de estrellas que suben rápido sin que los commits, lanzamientos y contribuyentes suban con ellas.
  • Velocidad en Twitter sin velocidad en GitHub.

Un hábito semanal útil: reserva treinta minutos los viernes para el campo. Lee tres cosas. El blog de ingeniería de Anthropic. Las notas de Simon Willison. Latent Space. Ojea uno o dos postmortems si han aparecido. Omite todo lo demás durante la semana. Sabrás lo que importa.

Qué vale la pena observar

Cosas que merecen atención en los próximos dos trimestres, no porque sean victorias garantizadas, sino porque la pregunta "¿es esto una señal?" aún no se ha resuelto por completo:

El modelo de bifurcación paralela de Replit Agent 4. Primer intento serio de "múltiples agentes trabajando en paralelo" que no tropieza con el estado compartido. Si se mantiene a escala, el valor predeterminado de orquestador-subagente podría cambiar.

Madurez de los precios basados en resultados. Las trayectorias de ingresos de Sierra y Harvey lo validan dentro de verticales estrechas. La pregunta es si se generaliza fuera de ellas o sigue siendo un modelo solo vertical.

Habilidades como capa de empaquetado. La proliferación de AGENTS.md y directorios de habilidades en GitHub sugiere una forma emergente de empaquetar capacidades de agentes. La pregunta abierta es si se estandariza como lo hizo MCP para las herramientas.

La regresión de calidad de Claude Code en abril de 2026 y su postmortem. Un agente líder en la industria sufrió una regresión de rendimiento del 47% y fue detectado por los usuarios antes de que la monitorización interna lo captara. Esa es una lección sobre lo inmaduras que siguen siendo las prácticas de evaluación de agentes en producción, incluso entre los líderes. Si esto impulsa una inversión en toda la industria en mejores evaluaciones en línea, la corrección es saludable.

La voz como superficie de soporte predeterminada. El canal de voz de Sierra superó al texto a finales de 2025. Si ese patrón se mantiene en otras verticales, las restricciones de diseño (latencia, interrupción, uso de herramientas en tiempo real) se convierten en prioridad, y muchas arquitecturas actuales necesitan rediseño.

La capacidad de los agentes de modelos abiertos cerrando la brecha. DeepSeek-V3.2 con pensamiento nativo integrado en uso de herramientas. Qwen 3.6. El panorama abierto más amplio. La relación costo-rendimiento para tareas de agentes estrechas está cambiando. El valor predeterminado de código cerrado no es permanente.

Cada uno de estos tiene una respuesta clara a "¿qué necesitaría ver en seis meses para creerlo?". Esa es la prueba. Sigue la respuesta, no los anuncios.

La apuesta no convencional

Cada framework que no adoptas es una migración que no debes. Cada benchmark que no persigues es un trimestre de enfoque que conservas. Las empresas que están ganando este ciclo (Sierra, Harvey, Cursor en sus respectivos dominios) eligieron objetivos estrechos, desarrollaron disciplina aburrida y dejaron que el ruido del campo pasara de largo.

El camino convencional era: elegir un stack, dominarlo durante años, escalar una escalera. Eso funcionaba cuando el stack era estable durante una década. El stack ahora cambia cada trimestre. Las personas que están ganando dejaron de optimizar para el dominio del stack y comenzaron a optimizar para el gusto, los primitivos y la velocidad de lanzamiento. Construyen cosas pequeñas en público. Aprenden lanzando. Son llevados a salas por lo que ya han hecho. La credencial es el artefacto.

Detente un segundo, porque ese es el punto real de todo este artículo. La mayoría de nosotros fuimos criados con un modelo de trabajo que asumía que el mundo se mantenía quieto el tiempo suficiente para que las credenciales se acumularan. Ibas a la escuela. Obtenías el título. Escalabas la escalera. Dos años aquí, tres años allá, y lentamente el currículum se convertía en algo que abría puertas. Toda esa máquina asumía una industria estable al otro lado.

El espacio de los agentes no tiene un otro lado estable en este momento. Las empresas para las que podrías querer trabajar tienen seis meses de antigüedad. Los frameworks sobre los que están construidas tienen dieciocho meses. Los protocolos subyacentes tienen dos años. La mitad de los artículos más citados en el campo fueron escritos por personas que no estaban en el campo hace tres años. No hay escalera que escalar porque el edificio sigue cambiando de pisos. Lo que queda, cuando la escalera no funciona, es el método mucho más antiguo: hacer algo, ponerlo en internet, dejar que el trabajo te presente. Es el camino no convencional porque ignora el sistema de credenciales. También es el único que se acumula en un campo en movimiento.

Así se ve la era desde dentro. Incluso los gigantes están iterando en público, lanzando regresiones, escribiendo postmortems, parcheando en vivo. Los equipos que están lanzando las cosas más interesantes este año incluyen personas que no estaban en el campo hace dieciocho meses. Los no programadores se están asociando con agentes y lanzando software real. Los doctores están siendo superados por constructores que eligieron los primitivos correctos y empezaron a trabajar. Las puertas están abiertas. La mayoría de la gente todavía está tratando de encontrar el formulario de solicitud.

La habilidad que realmente necesitas desarrollar ahora mismo no son los "agentes". Es la disciplina de descubrir qué trabajo se acumula en un campo donde la superficie sigue cambiando. La ingeniería de contexto se acumula. El diseño de herramientas se acumula. El patrón de orquestador-subagente se acumula. La disciplina de evaluación se acumula. La mentalidad de arnés se acumula. Conocer la API del framework que se lanzó el martes no se acumula. Una vez que puedas distinguirlos, la marea de lanzamientos semanales deja de sentirse como presión y comienza a sentirse como ruido que puedes ignorar.

No necesitas aprenderlo todo. Necesitas aprender las cosas que se acumulan y saltarte las que no. Elige un resultado. Configura el trazado y las evaluaciones antes de lanzar. Usa LangGraph o el equivalente de tu equipo. Usa MCP. Pon en un entorno aislado tu tiempo de ejecución. Por defecto, agente único. Agrega alcance cuando los modos de fallo lo requieran. Reevalúa modelos trimestralmente. Lee tres cosas los viernes.

Ese es el manual. El resto es gusto, velocidad de lanzamiento y la paciencia para no perseguir lo que no importa. Construye cosas. Ponlas en internet. La era recompensa a las personas que hacen la cosa más que a las que pueden describirla. Nunca ha habido una ventana mejor para ser quien la hace.

More patterns to decode

Recent viral articles

Explore more viral articles

Creado para creadores.

Encuentra ideas en artículos virales de 𝕏, descubre por qué funcionaron y convierte esos patrones en tu próximo ángulo de contenido.