Cosa imparare, costruire e ignorare nel mondo degli AI Agent (2026)

Cosa imparare, costruire e ignorare nel mondo degli AI Agent (2026)

@rohit4verse
INGLESE2 settimane fa · 29 apr 2026

AI features

2.5M
1.6K
242
46
6.3K

TL;DR

Un'analisi strategica approfondita sullo sviluppo di AI agent, focalizzata su elementi fondamentali durevoli come il context engineering e MCP, consigliando agli sviluppatori di evitare i framework guidati dall'hype a favore di una valutazione e un sandboxing robusti.

Ogni giorno porta un nuovo framework, un nuovo benchmark, un nuovo lancio "10x". La domanda smette di essere "come faccio a tenere il passo". Diventa: cosa è realmente segnale qui, e cosa è rumore travestito da urgenza.

Ogni roadmap diventa obsoleta un mese dopo il lancio. Il framework che hai padroneggiato lo scorso trimestre è ora legacy. Il benchmark per cui ti sei ottimizzato è stato aggirato e sostituito. Siamo stati condizionati a seguire un percorso convenzionale: uno stack con argomenti e livelli, una sequenza di lavori e anzianità, una lenta scalata. L'IA ha riscritto quella tela. Chiunque, con i giusti prompt e il giusto gusto, può ora realizzare un lavoro che a un ingegnere con due anni di esperienza sarebbe costato uno sprint.

La competenza conta ancora. Niente sostituisce l'aver visto sistemi rompersi, aver debuggato un memory leak alle 2 di notte, aver discusso per una scelta noiosa invece di una intelligente e aver avuto ragione. Quel tipo di gusto si accumula. Ciò che ha smesso di accumularsi come una volta: conoscere la superficie API del framework di questa settimana. Tra sei mesi sarà diverso. Le persone che vinceranno tra due anni hanno scelto presto primitive durevoli e hanno lasciato che il resto passasse.

Ho passato due anni a costruire in questo spazio, ho ottenuto molteplici offerte oltre i 250.000 dollari, e ora dirigo la parte tecnica in un'azienda in stealth. Questo è ciò che invierei a qualcuno che chiede "a cosa dovrei davvero prestare attenzione in questo momento".

Non è una roadmap. Il campo degli agenti non ha ancora una destinazione. I grandi laboratori iterano in pubblico, rilasciano regressioni a milioni di utenti, scrivono postmortem, correggono in tempo reale. Se il team dietro Claude Code può rilasciare una regressione delle prestazioni del 47% e accorgersene solo dopo che la comunità di utenti l'ha scoperta, l'idea che ci sia una mappa stabile sotto tutto questo è una finzione. Tutti stanno cercando di capire. Le startup prosperano perché anche i giganti non sanno. I non programmatori si affiancano agli agenti e rilasciano cose il venerdì che i dottorandi in ML chiamavano impossibili il martedì.

La cosa interessante di questo momento è cosa fa alla questione delle credenziali. Il percorso convenzionale ti ottimizzava per le credenziali: laurea, ruolo junior, ruolo senior, ruolo staff, la lenta accumulazione di rango. Aveva senso quando il campo sottostante non si muoveva. Ora il campo si muove ugualmente per tutti. La differenza tra un ventiduenne che rilascia demo di agenti in pubblico e un ingegnere senior di trentacinque anni non è più dieci anni di padronanza accumulata dello stack. Il ventiduenne ha la stessa tela bianca del senior, e ciò che si accumula per entrambi è la volontà di rilasciare, più la piccola lista di primitive che non diventano obsolete in un trimestre.

Questo è il riformulazione su cui si basa tutto questo pezzo. Quello che segue è un modo di pensare a quali primitive meritano la tua attenzione e a quali lanci lasciar perdere. Scegli ciò che si adatta. Lascia ciò che non si adatta.

Il filtro che funziona davvero

Non puoi tenere il passo con i lanci settimanali. Non dovresti provarci. La cosa di cui hai bisogno è un filtro, non un feed.

Cinque test hanno retto negli ultimi 18 mesi. Valuta un lancio con questi prima di lasciarlo toccare il tuo stack.

Sarà importante tra due anni? Se è un wrapper attorno a un modello frontier, un flag CLI, o "Devin ma per X", la risposta è quasi sempre no. Se è una primitiva (un protocollo, un pattern di memoria, un approccio al sandboxing), la risposta è più spesso sì. L'emivita dei wrapper è breve. L'emivita delle primitive è di anni.

Qualcuno che rispetti ha costruito qualcosa di reale sopra e ne ha scritto onestamente? I post di marketing non contano. I postmortem sì. Un blog intitolato "abbiamo provato X in produzione ed ecco cosa si è rotto" vale dieci annunci di lancio. Il buon segnale in questo campo è sempre scritto da qualcuno che ha perso un fine settimana per farlo funzionare.

Adottarlo richiede di buttare via il tuo tracing, i tuoi retry, la tua configurazione, la tua autenticazione? Se sì, è un framework che cerca di essere una piattaforma. I framework-che-cercano-di-essere-piattaforme hanno un tasso di mortalità del 90%. Le buone primitive si inseriscono nel tuo sistema esistente senza forzare una migrazione.

Cosa ti costa saltarlo per sei mesi? Per la maggior parte dei lanci, la risposta è niente. Tra sei mesi ne saprai di più. La versione vincente sarà più chiara. Questo è il test che ti permette di saltare il 90% dei lanci senza ansia, e quello che la maggior parte delle persone si rifiuta di fare perché saltare sembra restare indietro. Non lo è.

Puoi misurare se aiuta davvero i tuoi agenti? Se non puoi, stai indovinando. I team senza eval lavorano a sensazione e rilasciano regressioni. I team con eval possono lasciare che siano i dati a dire se GPT-5.5 o Opus 4.7 vince sul loro carico di lavoro specifico questa settimana.

Se adotti un'abitudine da tutto questo pezzo, falla questa: quando qualcosa di nuovo viene lanciato, scrivi cosa dovresti vedere tra sei mesi per credere che sia importante. Poi torna a controllare. La maggior parte delle volte la domanda si sarà risolta da sola, e avrai speso la tua attenzione su cose che si accumulano.

L'abilità alla base di questi test è più difficile da nominare di qualsiasi altro. È la volontà di essere poco cool riguardo a ciò che non scegli. Il framework che diventa virale su Hacker News questa settimana avrà un esercito di cheerleader per quattordici giorni, e sembreranno tutti intelligenti. Sei mesi dopo, metà di quei framework non sono più mantenuti e i cheerleader sono passati oltre. Le persone che non si sono impegnate hanno risparmiato la loro attenzione per cose che hanno superato la prova di essere noiose dopo che l'hype del lancio è passato. Questo atteggiamento, trattenersi, osservare, dire "lo saprò tra sei mesi", è la vera abilità professionale di questo campo. Tutti sanno leggere i lanci. Quasi nessuno è bravo a non reagire ad essi.

Cosa imparare

Concetti. Pattern. La forma delle cose. Queste sono le idee che pagano rendimenti composti. Sopravvivono a cambi di modello, cambi di framework, cambi di paradigma. Comprendili profondamente e puoi imparare qualsiasi nuovo strumento in un fine settimana. Saltali e sarai perennemente a reimparare meccaniche di superficie.

Ingegneria del contesto

La ridenominazione più importante degli ultimi due anni è stata "ingegneria dei prompt" che è diventata "ingegneria del contesto". Il cambiamento è reale, non cosmetico.

Il modello non è più qualcosa per cui crei un'istruzione intelligente. È qualcosa per cui assembli un contesto di lavoro ad ogni passo. Quel contesto è istruzioni di sistema, schemi di strumenti, documenti recuperati, output di strumenti precedenti, stato del blocco note e cronologia compressa, tutto insieme. Il comportamento dell'agente è una proprietà emergente di ciò che metti nella finestra.

Interiorizza questo: il contesto è stato. Ogni token di rumore irrilevante ti costa qualità di ragionamento. Il marciume del contesto è un vero fallimento produttivo. Al passo otto di un compito di dieci passi, l'obiettivo originale può essere sepolto sotto l'output dello strumento. I team che rilasciano agenti affidabili riassumono, comprimono, potano attivamente. Versionano le descrizioni dei loro strumenti. Mettono in cache le parti statiche e si rifiutano di mettere in cache le parti che cambiano. Pensano alla finestra di contesto come un ingegnere esperto pensa alla RAM.

Un modo concreto per sentirlo: prendi qualsiasi agente in produzione e attiva la registrazione completa delle tracce. Guarda il contesto al passo uno. Guarda il contesto al passo sette. Conta quanti di quei token stanno ancora guadagnandosi il loro posto. La prima volta che lo fai, ti vergognerai. Poi andrai a sistemarlo, e lo stesso agente diventerà notevolmente più affidabile senza alcun cambiamento al modello o al prompt.

Se leggi una cosa su questo, leggi "Effective Context Engineering for AI Agents" di Anthropic. Poi leggi il loro postmortem sulla ricerca multi-agente, che mette numeri su quanto l'isolamento del contesto sia importante quando si scala.

Progettazione degli strumenti

Gli strumenti sono dove gli agenti incontrano la tua attività. Il modello sceglie gli strumenti in base a nomi e descrizioni. Il modello riprova in base ai messaggi di errore. Il modello fallisce o riesce in base al fatto che il contratto dello strumento corrisponda a ciò che un LLM è bravo ad esprimere.

Da cinque a dieci strumenti ben nominati battono venti strumenti mediocri. I nomi degli strumenti dovrebbero sembrare frasi verbali inglesi. Le descrizioni dovrebbero includere quando usare lo strumento e quando no. I messaggi di errore dovrebbero essere feedback su cui il modello può agire. "Limite massimo di 500 token superato, prova a riassumere prima" batte "Errore: 400 Richiesta Errata" con un margine enorme. Un team nella ricerca pubblica ha riportato una riduzione del 40% nei cicli di retry dopo aver riscritto solo i propri messaggi di errore.

"Writing tools for agents" di Anthropic è il punto di partenza giusto. Dopodiché, strumenta i tuoi strumenti e guarda i pattern di chiamata effettivi. I maggiori guadagni nell'affidabilità degli agenti sono quasi sempre dal lato degli strumenti. Le persone continuano a ottimizzare i prompt e ignorano il posto dove risiede la vera leva.

Il pattern orchestratore-sottoagente

Il dibattito multi-agente del 2024 e 2025 si è concluso con una sintesi che tutti ora rilasciano. I sistemi multi-agente ingenui, in cui più agenti scrivono su uno stato condiviso in parallelo, falliscono catastroficamente perché gli errori si accumulano. I loop a singolo agente scalano più di quanto ci si aspetterebbe. C'è una forma multi-agente che funziona in produzione: un agente orchestratore che delega compiti di sola lettura con ambito ristretto a sottoagenti isolati, poi sintetizza i loro risultati.

È così che funziona il sistema di ricerca di Anthropic. È così che funzionano i sottoagenti di Claude Code. È il pattern che Spring AI e la maggior parte dei framework di produzione ora standardizzano. I sottoagenti ottengono contesti piccoli e focalizzati. Non possono mutare lo stato condiviso. L'orchestratore possiede le scritture.

Il saggio "Don't Build Multi-Agents" di Cognition e "How we built our multi-agent research system" di Anthropic sembrano opposti e dicono la stessa cosa con vocabolari diversi. Leggi entrambi.

Per impostazione predefinita, usa un singolo agente. Ricorri all'orchestratore-sottoagente solo quando il singolo agente incontra un vero muro: pressione sulla finestra di contesto, latenza da chiamate di strumenti sequenziali, o eterogeneità dei compiti che trae genuinamente beneficio da contesti focalizzati. Costruire questo prima di aver sentito il dolore introduce complessità di cui non hai bisogno.

Eval e dataset aurei

Ogni team che rilascia agenti affidabili ha eval. Ogni team che non lo fa, non li ha. Questa è l'abitudine a più alta leva nel campo, ed è la cosa più sotto-investita che vedo in ogni azienda che ho osservato.

Cosa funziona: raccogli le tue tracce di produzione, etichetta i fallimenti, trattali come un set di regressione. Aggiungici ogni volta che un nuovo fallimento viene rilasciato. Usa LLM-come-giudice per le parti soggettive, corrispondenza esatta o controlli programmatici per il resto. Esegui la suite prima di qualsiasi modifica a prompt, modello o strumento. Il blog di ingegneria di Spotify ha riportato che il loro livello giudice blocca circa il 25% degli output degli agenti prima che vengano rilasciati. Senza di esso, uno su quattro risultati negativi avrebbe raggiunto gli utenti.

Il modello mentale che rende questo efficace: un eval è un test unitario che tiene onesto l'agente mentre tutto il resto cambia sotto di esso. Il modello ottiene una nuova versione. Il framework rilascia una modifica sostanziale. Il fornitore depreca un endpoint. I tuoi eval sono l'unica cosa che ti dice se il tuo agente sta ancora facendo il suo lavoro. Senza di essi, stai scrivendo un sistema la cui correttezza dipende dalla buona volontà di un bersaglio in movimento.

I framework di eval (Braintrust, Langfuse evals, LangSmith) vanno bene. Nessuno di essi è il collo di bottiglia. Il collo di bottiglia è avere un set etichettato in primo luogo. Costruiscilo dal primo giorno, prima di scalare qualsiasi cosa. I primi cinquanta esempi possono essere etichettati a mano in un pomeriggio. Non ci sono scuse.

File-system-come-stato e il ciclo pensa-agisci-osserva

Per qualsiasi agente che fa un vero lavoro multi-passo, l'architettura durevole è: pensa, agisci, osserva, ripeti. Il file system o un archivio strutturato come fonte di verità. Ogni azione registrata e riproducibile. Claude Code, Cursor, Devin, Aider, OpenHands, goose. Convergono tutti su questo per un motivo.

Il modello è senza stato. L'harness deve essere stateful. Il file system è una primitiva stateful che ogni sviluppatore già capisce. Una volta accettata questa struttura, l'intera disciplina dell'harness (checkpointing, riprendibilità, verifica del sottoagente, esecuzione in sandbox) deriva dal prendere sul serio il pattern.

La cosa più profonda che questo ti insegna: l'harness sta facendo più lavoro del modello in qualsiasi agente di produzione che vale la sua bolletta di calcolo. Il modello sceglie l'azione successiva. L'harness la convalida, la esegue in una sandbox, cattura l'output, decide cosa reimmettere, decide quando fermarsi, decide quando fare checkpoint, decide quando generare un sottoagente. Sostituisci il modello con uno diverso di qualità simile e un buon harness rilascia ancora. Sostituisci l'harness con uno peggiore e il miglior modello del mondo produce ancora un agente che dimentica casualmente cosa stava facendo.

Se stai costruendo qualcosa di più elaborato di una singola chiamata a strumento, l'harness è dove dovresti passare il tuo tempo. Il modello è un componente al suo interno.

MCP, concettualmente

Non imparare solo come chiamare i server MCP. Impara il modello. Una separazione pulita tra capacità dell'agente, strumenti e risorse, con una storia di autenticazione e trasporto estensibile sottostante. Una volta che lo capisci, ogni altro "framework di integrazione per agenti" che vedi ti sembrerà una versione peggiore di MCP, e risparmierai il tempo di valutarli ciascuno.

La Linux Foundation ora lo gestisce. Ogni grande fornitore di modelli lo supporta. Il paragone "USB-C dell'IA" è più accurato che ironico ora.

Sandboxing come primitiva

Ogni agente di codifica in produzione viene eseguito in una sandbox. Ogni agente browser è stato colpito da iniezione di prompt indiretta. Ogni agente multi-tenant ha avuto un bug di scoping dei permessi rilasciato a un certo punto. Tratta il sandboxing come infrastruttura primitiva, non una funzionalità che aggiungi quando un cliente lo chiede.

Impara le basi. Isolamento dei processi. Controlli di uscita di rete. Scoping dei segreti. Confini di autenticazione tra agente e strumento. I team che aggiungono questo dopo una revisione di sicurezza del cliente sono i team che perdono l'affare. I team che lo costruiscono dalla prima settimana superano l'approvvigionamento aziendale senza sudare.

Con cosa costruire

Scelte specifiche, aprile 2026. Queste cambieranno, ma lentamente. Scegli in modo noioso qui.

Orchestrazione

LangGraph è l'impostazione predefinita di produzione. Circa un terzo delle grandi aziende che eseguono agenti lo usa. Le astrazioni corrispondono alla forma reale dei sistemi di agenti: stato tipizzato, archi condizionali, flussi di lavoro durevoli, checkpoint con intervento umano. Lo svantaggio è la verbosità. Il vantaggio è che la verbosità corrisponde a ciò di cui hai effettivamente bisogno per controllare una volta che un agente è in produzione.

Se vivi in TypeScript, Mastra è la scelta de facto. Il modello mentale più pulito in quell'ecosistema.

Se il tuo team ama Pydantic e vuole la sicurezza dei tipi come cittadino di prima classe, Pydantic AI è una scelta ragionevole per un progetto nuovo. Ha raggiunto la v1.0 alla fine del 2025 e lo slancio è reale.

Per lavoro nativo del fornitore (uso del computer, voce, tempo reale), usa Claude Agent SDK o OpenAI Agents SDK all'interno dei tuoi nodi LangGraph. Non cercare di rendere nessuno dei due l'orchestratore di primo livello per un sistema eterogeneo. Sono ottimizzati per la loro corsia.

Livello del protocollo

MCP, punto e basta. Costruisci le tue integrazioni di strumenti come server MCP. Consuma le integrazioni esterne allo stesso modo. Il registro ha superato il punto in cui puoi quasi sempre trovare un server prima di doverne costruire uno. Cablare plumbing di strumenti personalizzati nel 2026 paga una tassa per niente.

Memoria

Scegli in base al livello di autonomia, non all'hype.

Mem0 per la personalizzazione in stile chat. Preferenze utente, cronologia leggera. Zep per sistemi conversazionali di produzione in cui lo stato evolve e hai bisogno di tracciamento delle entità. Letta quando un agente mantiene la coerenza per giorni o settimane di lavoro. La maggior parte dei team non ne avrà bisogno. Quelli che ne hanno bisogno, hanno bisogno esattamente di questo.

L'errore è cercare un framework di memoria prima di avere un problema di memoria. Inizia con ciò che la tua finestra di contesto può contenere più un archivio vettoriale. Aggiungi un sistema di memoria solo quando puoi articolare la modalità di fallimento che risolve.

Osservabilità ed eval

Langfuse è l'impostazione predefinita OSS. Auto-ospitabile, con licenza MIT, copre tracing, versioning dei prompt e eval di base LLM-come-giudice. Se sei già un negozio LangChain, LangSmith si integra più strettamente. Braintrust è la scelta giusta per flussi di lavoro di eval in stile ricerca con confronti rigorosi. OpenLLMetry / Traceloop è la risposta se hai bisogno di strumentazione OpenTelemetry indipendente dal fornitore in uno stack poliglotta.

Vuoi sia tracing che eval. Il tracing risponde "cosa ha fatto effettivamente l'agente?" Gli eval rispondono "l'agente è migliore o peggiore di ieri?" Non rilasciare senza entrambi. Il costo di operare alla cieca è dieci volte il costo di cablare correttamente questo dal primo giorno.

Runtime e sandbox

E2B per l'esecuzione generale di codice in sandbox. Browserbase (abbinato a Stagehand) per l'automazione del browser. Anthropic Computer Use quando hai bisogno di un vero controllo desktop a livello di sistema operativo. Modal per brevi raffiche. Non eseguire mai codice non in sandbox. Mai. Il raggio di esplosione di un singolo agente con prompt iniettato nel tuo ambiente di produzione è una storia che non vuoi raccontare.

Modelli

La corsa ai benchmark è estenuante e in gran parte inutile. Pragmaticamente, nell'aprile 2026:

Claude Opus 4.7 e Sonnet 4.6 per uso affidabile degli strumenti, coerenza multi-passo e recupero elegante dai fallimenti. Sonnet è il punto debole costo-prestazioni per la maggior parte dei carichi di lavoro. GPT-5.4 e 5.5 quando hai bisogno del ragionamento CLI/terminale più forte o vivi nell'infrastruttura OpenAI. Gemini 2.5 e 3 per lavori pesanti in contesto lungo o multimodali. DeepSeek-V3.2 o Qwen 3.6 quando il costo conta più delle prestazioni di fascia alta, specialmente per compiti ristretti e ben definiti.

Tratta i modelli come intercambiabili. Se il tuo agente funziona solo con un modello, questo è un odore, non un fossato. Usa gli eval per decidere cosa distribuire. Rivaluta ogni trimestre, non ogni settimana.

Cosa saltare

Ti verrà detto di imparare e costruire con tutti questi. Non ne hai bisogno. Il costo di saltarli è basso. Il tempo risparmiato è grande.

AutoGen e AG2 per la produzione. Il framework di Microsoft è passato alla manutenzione della comunità, i rilasci si sono fermati, le astrazioni non corrispondono a ciò di cui i team di produzione hanno effettivamente bisogno. Va bene per l'esplorazione accademica. Non ancorare un prodotto su di esso.

CrewAI per nuove build di produzione. È ovunque perché si dimostra facilmente. Gli ingegneri che costruiscono sistemi reali se ne sono allontanati. Usalo per prototipi se vuoi. Non impegnarti.

Microsoft Semantic Kernel a meno che tu non sia bloccato nello stack aziendale Microsoft e i tuoi acquirenti tengano al fatto che lo sei. Non è dove sta andando l'ecosistema.

DSPy a meno che tu non stia specificamente ottimizzando programmi di prompt su larga scala. Merito filosofico, pubblico di nicchia. Non un framework generale per agenti. Non sceglierlo come tale.

Agenti di scrittura codice autonomi come scelta architetturale. Codice-come-azione è una ricerca interessante. Non è ancora un pattern predefinito di produzione, e combatterai battaglie di strumenti e sicurezza che i tuoi concorrenti non hanno.

Proposte di "agente autonomo". La discendenza di AutoGPT e BabyAGI è morta in forma di prodotto. La struttura onesta su cui l'industria si è stabilizzata è "ingegneria agentica": supervisionata, limitata, valutata. Chiunque venda ancora agenti autonomi del tipo "distribuisci e dimentica" nel 2026 ti sta vendendo il 2023.

App store e marketplace di agenti. Promessi dal 2023, mai ottenuto trazione aziendale. Le aziende non acquistano agenti predefiniti generici. Acquistano agenti verticali legati ai risultati, o li costruiscono da sole. Non strutturare la tua attività attorno a un sogno di app store.

Piattaforme aziendali orizzontali "costruisci qualsiasi agente" come cliente (Google Agentspace, AWS Bedrock Agents, livello Microsoft Copilot Studio). Saranno utili alla fine. In questo momento sono confuse, a rilascio lento, e il calcolo compra-versus-costruire favorisce ancora la costruzione dell'agente ristretto da soli o l'acquisto di quello verticale. Salesforce Agentforce e ServiceNow Now Assist sono eccezioni perché vincono essendo incorporati in sistemi di flusso di lavoro che già usi.

Inseguimento della classifica SWE-bench e OSWorld. I ricercatori di Berkeley hanno documentato fino al 2025 che quasi ogni benchmark pubblico può essere aggirato senza risolvere il compito sottostante. I team ora usano Terminal-Bench 2.0 e i propri eval interni come segnale reale. Tratta i balzi di benchmark a numero singolo con scetticismo per impostazione predefinita.

Architetture multi-agente parallele ingenue. Cinque agenti che chiacchierano su memoria condivisa sembrano impressionanti in una demo e crollano in produzione. Se non puoi disegnare un diagramma pulito orchestratore-sottoagente con confini di lettura/scrittura su un tovagliolo, non rilasciarlo.

Prezzi SaaS per posto per nuovi prodotti agente. Il mercato si è spostato su base di risultato e utilizzo. Prezzare per posto lascia soldi sul tavolo e segnala agli acquirenti che non ti fidi del tuo stesso prodotto per fornire risultati.

Il prossimo framework che vedi su Hacker News questa settimana. Aspetta sei mesi. Se conta ancora, sarà ovvio. Se non conta, hai risparmiato una migrazione.

Come muoversi davvero

Se stai cercando di adottare agenti, non solo di tenere il passo, questa sequenza funziona. È noiosa. Funziona.

Scegli un risultato che conta già. Non un colpo di luna. Non un progetto orizzontale di "piattaforma agente". Qualcosa di misurabile di cui la tua azienda si preoccupa già. Deviare i ticket di supporto. Abbozzare la revisione legale di primo passaggio. Qualificare i lead in entrata. Generare report mensili. L'agente ha successo quando quel risultato si muove. Questo diventa il tuo obiettivo di eval dal primo giorno.

Il motivo per cui questo passaggio è più importante di qualsiasi altro è che vincola ogni decisione successiva. Con un risultato specifico, la domanda "quale framework" smette di essere filosofica. Scegli quello che rilascia il tuo risultato più velocemente. La domanda "quale modello" smette di essere una discussione di benchmark. Scegli quello che i tuoi eval dicono funzioni su questo lavoro specifico. La domanda "abbiamo bisogno di memoria / sottoagenti / un harness personalizzato" smette di essere un esperimento mentale. Aggiungi solo ciò che le tue specifiche modalità di fallimento richiedono. I team che saltano questo passaggio finiscono per costruire piattaforme orizzontali che nessuno ha chiesto. I team che lo prendono sul serio finiscono per rilasciare un singolo agente ristretto che si ripaga in un trimestre, e quel singolo agente rilasciato insegna loro di più sul campo di due anni di lettura.

Imposta tracing ed eval prima di rilasciare qualsiasi cosa. Scegli Langfuse o LangSmith. Cablalo. Costruisci un piccolo dataset aureo a mano se necessario. Cinquanta esempi etichettati sono sufficienti per iniziare. Non sarai in grado di migliorare ciò che non puoi misurare. Il costo di costruire questo dopo è circa 10 volte il costo di costruirlo ora.

Inizia con un loop a singolo agente. Scegli LangGraph o Pydantic AI. Scegli Claude Sonnet 4.6 o GPT-5 come modello. Dai all'agente da tre a sette strumenti ben progettati. Dagli il file system o un database come stato. Rilascia a un piccolo pubblico. Guarda le tracce.

Tratta l'agente come un prodotto, non un progetto. Fallirà in modi che non hai previsto. Quei fallimenti sono la tua roadmap. Costruisci il set di regressione da tracce di produzione reali. Ogni modifica al prompt, ogni cambio di modello, ogni modifica allo strumento passa attraverso gli eval prima della distribuzione. È qui che la maggior parte dei team sotto-investe. È da qui che proviene la maggior parte dell'affidabilità.

Aggiungi ambito solo quando te lo sei guadagnato. I sottoagenti entrano in gioco quando il contesto è il collo di bottiglia. I framework di memoria entrano in gioco quando il contesto a finestra singola non può contenere ciò di cui hai bisogno. L'uso del computer o del browser entra in gioco quando le API sottostanti non ci sono davvero. Non pre-architettare questi. Lascia che le modalità di fallimento li attirino.

Scegli infrastruttura noiosa. MCP per gli strumenti. E2B o Browserbase per le sandbox. Postgres o qualsiasi archivio dati che già esegui per lo stato. Il tuo stack di autenticazione e osservabilità esistente. L'infrastruttura esotica è raramente la vittoria. La disciplina lo è.

Osserva i tuoi economics unitari dal primo giorno. Costi per azione. Tassi di hit della cache. Costi del ciclo di retry. Distribuzione delle chiamate al modello. Gli agenti sembrano economici in PoC ed esplodono a scala 100x a meno che non strumenti il costo per risultato dall'inizio. Un PoC da $0,50/esecuzione diventa $50.000/mese a volume moderato. I team che non lo vedono arrivare ottengono una riunione con il CFO che non apprezzano.

Rivaluta i modelli trimestralmente, non settimanalmente. Blocca per un trimestre. Alla fine del trimestre, esegui la tua suite di eval contro il frontier corrente e cambia se i dati dicono di cambiare. Ottieni il vantaggio del miglioramento del modello senza il caos di inseguire ogni rilascio.

Leggere la marea

Indicatori concreti che qualcosa è segnale:

Un team di ingegneri rispettato scrive un postmortem con numeri, non solo affermazioni sull'adozione. È un elemento primitivo (protocollo, pattern, infrastruttura), non un wrapper o un bundle. Interopera con ciò che già esegui invece di sostituirlo. La proposta descrive una modalità di fallimento che risolve, non una capacità che abilita. È in circolazione da abbastanza tempo da avere un post sul blog "cosa non ha funzionato" scritto a riguardo.

Indicatori concreti che qualcosa è rumore:

Video demo senza casi studio di produzione dopo trenta giorni. Balzi nei benchmark troppo puliti per essere reali. Proposte che usano "autonomo", "sistema operativo per agenti" o "crea qualsiasi agente" senza qualifiche. Framework la cui documentazione presuppone che butterai via il tuo tracing, auth e config esistenti. Conteggi di stelle in rapida ascesa senza che commit, release e contributori aumentino di pari passo. Velocità su Twitter senza velocità su GitHub.

Un'abitudine settimanale utile: riserva trenta minuti il venerdì per il settore. Leggi tre cose. Il blog di ingegneria di Anthropic. Gli appunti di Simon Willison. Latent Space. Scorri uno o due postmortem se ne sono usciti. Salta tutto il resto per la settimana. Saprai quali sono le cose che contano.

Cosa vale la pena osservare

Cose che meritano attenzione nei prossimi due trimestri, non perché siano vittorie garantite, ma perché la domanda "questo è un segnale?" non è ancora del tutto risolta:

Il modello di forking parallelo di Replit Agent 4. Primo serio tentativo di "più agenti che lavorano in parallelo" che non inciampa sullo stato condiviso. Se regge su larga scala, il default orchestratore-sottoagente potrebbe cambiare.

La maturità dei prezzi basati sui risultati. Le traiettorie dei ricavi di Sierra e Harvey lo convalidano all'interno di verticali ristrette. La domanda è se si generalizzerà al di fuori o rimarrà un modello solo verticale.

Le competenze come livello di packaging. La proliferazione di AGENTS.md e directory di competenze su GitHub suggerisce un modo emergente di impacchettare le capacità degli agenti. Se si standardizzerà come ha fatto MCP per gli strumenti è la domanda aperta.

Il degrado della qualità di Claude Code dell'aprile 2026 e il suo postmortem. Un agente leader del settore ha subito un degrado delle prestazioni del 47% ed è stato scoperto dagli utenti prima che il monitoraggio interno lo rilevasse. Questa è una lezione su quanto siano ancora immature le pratiche di valutazione degli agenti in produzione, anche tra i leader. Se questo porterà a investimenti a livello di settore in migliori valutazioni online, la correzione è salutare.

La voce come superficie di supporto predefinita. Il canale vocale di Sierra ha superato il testo alla fine del 2025. Se questo schema si mantiene in altri verticali, i vincoli di progettazione (latenza, interruzione, uso di strumenti in tempo reale) diventano di prim'ordine e molte architetture attuali necessitano di rielaborazione.

La capacità degli agenti open-model che colma il divario. DeepSeek-V3.2 con pensiero nativo nell'uso degli strumenti. Qwen 3.6. Il più ampio panorama open. Il rapporto costo-prestazioni per attività di agenti ristrette sta cambiando. Il default closed-source non è permanente.

Ognuna di queste ha una chiara risposta a "cosa dovrei vedere tra sei mesi per crederci". Questo è il test. Tieni traccia della risposta, non degli annunci.

La scommessa non convenzionale

Ogni framework che non adotti è una migrazione che non devi fare. Ogni benchmark che non insegui è un trimestre di concentrazione che mantieni. Le aziende che stanno vincendo questo ciclo (Sierra, Harvey, Cursor nei rispettivi domini) hanno scelto obiettivi ristretti, costruito disciplina noiosa e lasciato che il rumore del settore le superasse.

Il percorso convenzionale era: scegli uno stack, padroneggialo per anni, scala la scala. Funzionava quando lo stack era stabile per un decennio. Lo stack ora cambia ogni trimestre. Le persone che vincono hanno smesso di ottimizzare per la padronanza dello stack e hanno iniziato a ottimizzare per gusto, elementi primitivi e velocità di rilascio. Costruiscono cose piccole in pubblico. Imparano rilasciando. Vengono chiamati nelle stanze da ciò che hanno già creato. La credenziale è l'artefatto.

Riflettici un attimo, perché è il punto centrale di tutto questo pezzo. La maggior parte di noi è stata cresciuta con un modello di lavoro che presumeva che il mondo rimanesse fermo abbastanza a lungo perché le credenziali si accumulassero. Andavi a scuola. Prendevi la laurea. Salivi la scala. Due anni qui, tre anni là, e lentamente il curriculum diventava qualcosa che apriva porte. Tutta quella macchina presumeva un'industria stabile dall'altra parte.

Lo spazio degli agenti non ha un lato stabile in questo momento. Le aziende per cui potresti voler lavorare hanno sei mesi. I framework su cui sono costruite hanno diciotto mesi. I protocolli sottostanti hanno due anni. Metà dei post più citati nel settore sono stati scritti da persone che non erano nel settore tre anni fa. Non c'è una scala da salire perché l'edificio continua a cambiare piani. Ciò che resta, quando la scala non funziona, è il metodo molto più antico: crea una cosa, mettila su internet, lascia che il lavoro ti presenti. È il percorso non convenzionale perché ignora il sistema di certificazione. È anche l'unico che si accumula in un campo in movimento.

Ecco come appare l'era dall'interno. Anche i giganti stanno iterando in pubblico, rilasciando regressioni, scrivendo postmortem, applicando patch in produzione. I team che rilasciano le cose più interessanti quest'anno includono persone che non erano nel settore diciotto mesi fa. I non programmatori si stanno accoppiando con gli agenti e rilasciando software reale. I dottorandi vengono superati da costruttori che hanno scelto gli elementi primitivi giusti e hanno iniziato a lavorare. I cancelli sono aperti. La maggior parte delle persone sta ancora cercando il modulo di domanda.

L'abilità di cui hai veramente bisogno di sviluppare in questo momento non sono gli "agenti". È la disciplina di capire quale lavoro si accumula in un campo in cui la superficie continua a cambiare. L'ingegneria del contesto si accumula. La progettazione degli strumenti si accumula. Il pattern orchestratore-sottoagente si accumula. La disciplina della valutazione si accumula. La mentalità dell'imbracatura si accumula. Conoscere l'API del framework lanciato martedì no. Una volta che sai distinguerli, la marea di lanci settimanali smette di sembrare pressione e inizia a sembrare rumore che puoi ignorare.

Non devi imparare tutto. Devi imparare le cose che si accumulano e saltare quelle che non lo fanno. Scegli un risultato. Collega tracing e valutazioni prima di rilasciare. Usa LangGraph o l'equivalente del tuo team. Usa MCP. Metti in sandbox il tuo runtime. Imposta come predefinito un singolo agente. Aggiungi ambito quando le modalità di fallimento lo richiedono. Rivaluta i modelli trimestralmente. Leggi tre cose il venerdì.

Questo è il manuale. Il resto è gusto, velocità di rilascio e la pazienza di non inseguire ciò che non conta. Costruisci cose. Mettile su internet. L'era premia le persone che creano la cosa più di quelle che sanno descrivere la cosa. Non c'è mai stata una finestra migliore per essere colui che crea.

More patterns to decode

Recent viral articles

Explore more viral articles

Creato per i creator.

Trova idee negli articoli virali su 𝕏, capisci perché funzionano e trasforma quei pattern nel tuo prossimo angolo di contenuto.