Come ricordano gli AI Agent? Una guida dettagliata dai principi alla pratica

@lxfater
CINESE2 mesi fa · 13 mag 2026
388K
562
168
37
1.1K

TL;DR

Questa guida spiega i meccanismi della memoria degli AI Agent, confrontando la gestione di base delle sessioni con framework aziendali avanzati come EverOS, che utilizzano il consolidamento semantico e la distillazione delle competenze.

Recentemente, la memoria a lungo termine per gli Agenti è diventata molto popolare, e tutti parlano di sistemi di sistemi di memoria.

Ma quando guardi quelle spiegazioni, la maggior parte ti butta addosso un sacco di termini: database vettoriali, RAG, finestre di contesto, compressione, memoria episodica...

Dopo aver letto, ancora non riesci a spiegare esattamente come funziona, vero?

Non è colpa tua; la maggior parte degli articoli dà per scontato che tu abbia già le basi.

Tuttavia, i sistemi di memoria per Agenti sono attualmente l'argomento più caldo nei colloqui. Se non li capisci, sarai in svantaggio sia nel lavoro che nei colloqui.

Quindi, in questo post, adotterò un approccio diverso, partendo dalle basi senza accumulare gergo! Cercherò di renderlo comprensibile per tutti!!

Garantisco che dopo aver letto, sarai in grado di rispondere a queste tre domande da solo:

Cos'è un sistema di memoria?

Come comprendiamo il sistema di memoria di OpenClaw?

Che aspetto ha una soluzione di livello enterprise? Ho scelto EverOS (github.com/EverMind-AI/EverOS

铁锤人 - inline image

Questo articolo è piuttosto lungo e mi ci sono voluti diversi giorni per scriverlo. Se hai amici interessati alla memoria degli Agenti, puoi salvarlo e inoltrarlo in seguito.

Conoscenze di Base sui Sistemi di Memoria per Agenti

Questa sezione riguarda principalmente come gli Agenti mantengono la memoria all'interno di una singola sessione e tra sessioni diverse. Se lo capisci già, sentiti libero di saltare.

Prima di tutto, non c'è memoria tra due chiamate API a un modello grande. Cosa significa?

Ad esempio: se dici che ti piace mangiare arance nella prima chiamata, ma non aggiungi "Mi piace mangiare arance" al prompt nella seconda chiamata, il modello non avrà memoria della tua preferenza.

Quindi come fa un Agente a mantenere questa memoria durante una conversazione?

Innanzitutto, ogni volta che chiedi qualcosa, il sistema sottostante invia l'intera cronologia della chat precedente. Il modello la vede, assicurando la memoria a breve termine.

Ma quando la cronologia della chat diventa così lunga da superare la finestra di contesto massima del modello, la comprime. Riassume la cronologia della conversazione corrente e la reimmette nel prompt, creando spazio per continuare la chat.

Questo è il principio di come un modello mantiene la memoria in una singola conversazione lunga. Se sei un po' confuso, guarda il diagramma qui sotto:

铁锤人 - inline image

Ora sai come la memoria viene mantenuta in una singola sessione, ma come viene mantenuta tra diverse sessioni di chat?

Qui entra in gioco il sistema di memoria a lungo termine!!

Ciò che fa è memorizzare informazioni importanti in uno spazio di archiviazione quando il tuo contesto viene compresso o quando richiedi di ricordare qualcosa.

Poi, quando inizi una nuova conversazione, estrae e aggiunge le informazioni pertinenti al prompt al momento opportuno.

"Scambiando il vecchio con il nuovo," crea l'illusione di ricordare molte cose. Questo è simile alla memoria di lavoro e alla memoria a lungo termine umane.

铁锤人 - inline image

Bene, con queste conoscenze di base sulla memoria, possiamo passare a capire cos'è un sistema di memoria.

Di seguito, ti darò un quadro concettuale. Se lo finisci di leggere, ti garantisco che avrai una comprensione di base di qualsiasi soluzione di sistema di memoria.

Il Sistema di Memoria

Ci sono almeno dozzine di soluzioni che affermano di dare agli Agenti una memoria a lungo termine. Come facciamo a studiarne così tante?

Successivamente, analizzerò un paper per darti una comprensione di base della memoria a lungo termine degli Agenti, e poi confronterò le differenze tra OpenClaw e altri framework di memoria per una migliore comprensione.

Google ha pubblicato un paper nel novembre 2025 intitolato "Context Engineering, Sessions and Memory."

In questo paper, seguono i metodi delle scienze cognitive di mezzo secolo fa, dividendo la memoria degli Agenti in tre categorie:

  • Memoria Episodica: Cosa è successo ieri, di cosa si è parlato l'ultima volta.
  • Memoria Semantica: Come ti chiami, cosa ti piace, qual è la tua identità.
  • Memoria Procedurale: Come completare un compito, qual è il processo.

Insieme, questi tre tipi di memoria costituiscono la memoria dell'Agente.

铁锤人 - inline image

Ma questa è solo metà della storia; l'altra metà riguarda come mantenere e usare la memoria.

Proprio come gli umani, gli Agenti non possono ricordare tutto. Pertanto, un sistema di memoria ha bisogno di un metodo affidabile per estrarre informazioni importanti dalla cronologia della conversazione e poi salvarle.

Chiamo questo passaggio Estrazione.

Inoltre, dobbiamo organizzare e unire i ricordi.

Ad esempio:

Tre mesi fa, ho detto di essere a Dali, ma poi mi sono trasferito a Chengdu. Se queste informazioni non vengono unite, la memoria conterrà voci contraddittorie.

L'approccio corretto è aggiornare la memoria a "L'utente è a Chengdu" dopo che mi sono trasferito.

Chiamo questo passaggio Aggiornamento.

C'è anche il passaggio di Recupero, che coinvolge molti metodi: ricerca per parole chiave, ricerca semantica, ricerca ibrida o utilizzo di modelli grandi per recuperare.

Quindi, per comprendere un sistema di memoria, devi solo comprendere questi due aspetti:

  1. Quante categorie di memoria ci sono e cosa memorizza ciascuna?
  2. Come vengono estratte, aggiornate e recuperate le memorie?
铁锤人 - inline image

Ora, usando questo framework, scopriamo come è implementata la memoria a lungo termine di OpenClaw.

Quante categorie di memoria ha OpenClaw e cosa memorizza ciascuna?

La sua memoria è divisa nei seguenti tre tipi:

  1. memory.md (Memoria): Appartiene alla memoria semantica; memorizza la tua identità, preferenze e fatti stabili.
  1. daily logs: Appartiene alla memoria episodica; registra cosa è successo ogni giorno, organizzato per data. Aggiunge solo nuove voci e non cancella mai.
  1. session snapshots: Appartiene al livello episodico; quando usi i comandi /new o /reset per iniziare una nuova sessione, riassume gli ultimi 15 messaggi "significativi" della vecchia conversazione e li salva come file markdown.
铁锤人 - inline image

Come vengono fatte estrazione, aggiornamento e recupero?

L'estrazione avviene in tre situazioni:

  1. Quando una conversazione sta per essere compressa: Le informazioni preziose vengono scritte nei daily logs.
  2. Quando usi /new o /reset per iniziare una nuova sessione: Le informazioni preziose vengono salvate nei session snapshots.
  3. Quando l'utente richiede di ricordare qualcosa: Il sistema decide in quale tipo di memoria memorizzarlo.

Il recupero avviene in due situazioni:

  1. Quando si inizia una nuova conversazione: memory.md viene automaticamente iniettato nel prompt, e legge anche i daily logs di oggi e di ieri per il contesto recente.
  2. Quando OpenClaw ritiene necessario controllare la memoria: Chiama la ricerca della memoria, trova la posizione della memoria tramite ricerca ibrida (parole chiave + vettori), e poi legge il contenuto del file tramite memory get.

Quando avviene l'aggiornamento? La mia comprensione personale è che avviene durante l'estrazione, quando si decide cosa ricordare.

Se ancora non capisci bene, guarda il diagramma qui sotto:

铁锤人 - inline image

Ora hai una certa comprensione dei sistemi di memoria, ma a dire il vero, il sistema di OpenClaw ha diversi problemi:

  1. Consuma molti token.
  2. Se il Markdown scompare, la memoria scompare.
  3. Spesso dimentica le cose.

Tuttavia, i veri sistemi di memoria di livello enterprise hanno molte ottimizzazioni per garantire la stabilità. La tecnologia alla base vale la pena di essere compresa per chi ama la tecnologia.

Successivamente, analizzerò i sistemi di memoria per Agenti di livello enterprise!!

Sistemi di Memoria per Agenti di Livello Enterprise

Nell'era dell'IA, ogni programmatore dovrebbe comprendere la tecnologia alla base dei sistemi di memoria per Agenti di livello enterprise; altrimenti, perderai il tuo vantaggio competitivo.

Perché?

Perché i modelli grandi continueranno a mangiare il nostro lavoro di programmazione. L'unica scelta è costruire sistemi di supporto per loro.

Per renderlo più facile da spiegare, prenderò una soluzione open-source chiamata EverOS per analizzarla.

Se hai intenzione di iniziare a imparare i sistemi di memoria per Agenti da questo progetto, senti libero di mettere una stella:

github.com/EverMind-AI/EverOS

Come ho detto prima, per comprendere un sistema di memoria, devi solo rispondere solo rispondere a due domande.

Come risponde EverOS?

Domanda 1: Come è categorizzata la memoria?

Il framework generale ha 3 tipi, ma EverOS li suddivide ulteriormente, come mostrato qui sotto:

铁锤人 - inline image
  1. Memoria Semantica Memoria a lungo termine di chi sei, divisa in due livelli:
  2. Tratti Stabili: Sei un nottambulo, un programmatore, vivi a Pechino—cose che non cambiano per molto tempo.
  3. Stati Temporanei: Oggi hai fatto tardi, questa settimana sei stato impegnato, la scorsa settimana avevi il raffreddore.
  1. Memoria Episodica Divisa in tre tipi:
  2. Episodio: Un riassunto condensato di una conversazione o un compito, non un registro giornaliero. Esempio: L'utente ha chiesto come distribuire un modello, si è bloccato sulle variabili d'ambiente e ci ha messo 30 minuti.
  3. EventLog: Estrae fatti chiave dalle conversazioni, ciascuno con un timestamp. Esempio: 2026-05-10 L'utente ha comprato un Mac mini, 2026-05-12 L'utente ha collegato GitHub.
  4. Previsione: "Prossimi passi" legati al tempo—cose che hai detto che avresti fatto o che deduce che coinvolgerai in seguito, con date di scadenza per i promemoria. Esempio: Inviare la proposta entro venerdì prossimo.
  1. Memoria Procedurale Divisa in due tipi:
  2. Caso Agente: Dopo aver completato un compito, registra "cosa era inteso + azioni passo-passo + un punteggio di qualità." Esempio: Inviare un'email—controlla i contatti, scrive la bozza, chiede conferma, poi invia—questo intero set viene archiviato con un punteggio di qualità.
  3. Abilità Agente (Abilità Distillata): Dopo aver eseguito compiti simili diverse volte, distilla automaticamente un approccio generale da questi archivi, con un punteggio di maturità. Più viene fatto, più diventa affidabile. Esempio: Dopo 5 compiti di email, impara a controllare se il destinatario è una persona chiave prima di decidere un tono formale o informale.

Come puoi vedere, EverOS suddivide le 3 categorie originali in 6 tipi, consentendo una memorizzazione più precisa e una memoria più efficace.

Inoltre, è più simile alla memoria umana—prevede il futuro e riassume/affina le abilità.

Domanda 2: Come vengono fatte estrazione, aggiornamento e recupero?

Come viene estratta?

EverOS giudica automaticamente se "questo segmento è finito." Una volta finito, lo taglia e lo impacchetta in un'unità di memoria.

Ogni unità contiene 4 cose:

  • Trama: Di cosa si è parlato e cosa è stato fatto—un riassunto condensato, non verbatim.
  • Fatti Chiave: Quali fatti all'interno meritano di essere annotati separatamente.
  • Previsione: Cose che hai detto che avresti fatto o che deduce che deduce che farai, con date di scadenza per i promemoria.
  • Tag di Contesto: Quando, dove, quanto credibile e qual era l'emozione in quel momento.

Tu chatti e basta; lui gestisce i dettagli della segmentazione.

铁锤人 - inline image

Come viene aggiornata la memoria?

Ad esempio:

Un mese:

Un mese fa, hai detto all'IA: Ho intenzione di iniziare ad allenarmi. Due settimane dopo, hai detto: Sono stato impegnato, non sono andato in palestra. Oggi dici: Lascia perdere, non mi alleno.

Le soluzioni ordinarie accumulano tutte e tre nel registro. Qualunque cosa il modello recuperi, la considera come un fatto. Ma in realtà, la risposta dovrebbe essere l'ultima.

EverOS si affida alla "Consolidamento Semantico," che fa tre cose:

  • Determina automaticamente quale è l'ultimo (allenamento interrotto).
  • Unisce duplicati duplicati o cose che si riferiscono allo stesso evento.
  • Mantiene un profilo utente, separando le preferenze stabili dagli stati temporanei (ufficialmente chiamato Evoluzione del Profilo).

I dettagli sono mostrati qui sotto:

铁锤人 - inline image

Come viene recuperata la memoria?

EverOS ti offre 4 metodi di recupero tra cui scegliere in base allo scenario:

  • Parole Chiave: Corrispondenza esatta, adatta per nomi o ID specifici.
  • Ricerca Vettoriale: Corrispondenza semantica—parole diverse con lo stesso significato possono corrispondere.
  • Ibrido: Parole chiave + vettori insieme, poi filtrati da un modello di rerank—il predefinito consigliato.
  • Agentico: Usato per domande complesse in più parti; l'LLM giudica cosa e come cercare, iterando fino a trovare (usato quando l'ibrido non è sufficiente).

Ma i 4 metodi non sono la chiave; la chiave è la logica di recupero.

Le soluzioni ordinarie sono passive—tu dai parole chiave, lui restituisce documenti corrispondenti, e basta.

EverOS ricostruisce attivamente il contesto:

  1. Analizza cosa vuoi fare questa volta.
  2. Attiva scenari tematici pertinenti.
  3. Filtra le informazioni scadute (es., preferenze di un anno fa potrebbero essere non valide).
  4. Cerca iterativamente fino a raccogliere informazioni sufficienti.

Le soluzioni ordinarie sono come un motore di ricerca che finisce dopo una ricerca. EverOS cerca ripetutamente da diverse angolazioni fino a trovare informazioni sufficienti.

铁锤人 - inline image

EverOS ha raggiunto una precisione complessiva del 93.05% sul benchmark di memoria a lungo termine LoCoMo (usando GPT-4o-mini), superando la soluzione di confronto Zep (85.22%) di quasi 8 punti percentuali.

Dopo aver letto questa sezione, dovresti avere una buona idea dei sistemi di memoria per Agenti di livello produttivo. Ma come si concretamente nell'ingegneria reale, e cosa puoi fare con loro?

Implementazione Produttiva Reale

Continuerò a usare questo progetto open-source per spiegare per due motivi: l'API è aperta gratuitamente, e il repository contiene 20 casi d'uso reali—perfetti per discutere l'implementazione!!

API Aperta Gratuita

L'API Cloud di EverOS è aperta gratuitamente.

铁锤人 - inline image

Tre passaggi per iniziare:

  1. Apri everos.evermind.ai nel tuo browser per registrarti; la pagina ti dà una chiave API, salvala.
  2. Installa l'SDK tramite riga di comando: pip install everos
  3. Crea un'istanza del client in Python e inizia a usarlo.

EverOS non è solo gratuito da provare, ma supporta anche la recentemente popolare funzione di Auto-Evoluzione delle Abilità!!

Come usare l'Auto-Evoluzione delle Abilità?

Quando un Agente esegue ripetutamente compiti simili, EverOS distilla automaticamente l'esperienza in abilità riutilizzabili. La prossima volta che arriva un compito simile, usa l'abilità direttamente invece di ricominciare da capo.

Usarlo nel codice coinvolge il concatenamento di 3 API:

Due punti da notare:

  • La prima volta che fornisci una traiettoria, genera solo un caso (archivio di un singolo compito). Le abilità vengono raggruppate e distillate solo dopo diversi compiti simili.
  • Devi usare l'endpoint /memories/agent; /memories normale non estrarrà abilità.

Se non capisci la funzione di Auto-Evoluzione delle Abilità, guarda il diagramma qui sotto:

铁锤人 - inline image

Ho menzionato brevemente l'uso del codice, ma come infrastruttura per Agenti, questo progetto ha casi d'uso reali estremamente preziosi.

E questi casi sono tutti open-source e pronti per l'apprendimento!!

20 Casi d'Uso Reali

Il README del repository elenca 20 casi d'uso, eccone alcuni:

  • MemoCare (Assistente di Memoria per Alzheimer): Fornisce una memoria esterna che non dimentica mai per pazienti con declino cognitivo—questo è uno dei progetti di welfare pubblico più commoventi.
  • Plugin Claude Code: Aggiunge memoria a lungo termine a Claude Code, ricordando tra sessioni.
  • Game of Thrones: Inserisce le trame di GoT all'IA per interpretare personaggi che ricordano chi sono a lungo termine.
  • OpenHer: Fidanzata IA, compagnia emotiva + evoluzione della memoria.
  • Computer-Use con Memoria: Lascia che l'Agente controlli un computer e ricordi le esperienze di ogni operazione.
  • Visualizzazione del Grafo di Memoria: Visualizza il sistema di memoria come un grafo.

L'elenco completo è nel README su github.com/EverMind-AI/EverOS.

A proposito, ecco alcuni plugin ufficiali:

Le API non bastano, EverOS ha confezionato le capacità di memoria in diversi plugin pronti all'uso:

  • Plugin Claude Code: Aggiunge memoria a lungo termine a Claude Code—si salva automaticamente dopo ogni risposta e richiama il contesto per ogni domanda, con un pannello visivo Memory Hub. Installa con un comando.
  • Plugin OpenClaw: Collega EverOS come "slot di memoria" per OpenClaw—l'Agente recupera automaticamente la memoria pertinente (trame, profili, casi, abilità) prima di eseguire e salva la conversazione e le chiamate agli strumenti dopo.
  • Abilità OpenClaw: Collega gli strumenti di memoria di EverOS a OpenClaw / Claude Code come "abilità," permettendo all'Agente di chiamare la memoria secondo necessità piuttosto che averla permanentemente attaccata.

Tornando alle tre domande iniziali:

Cos'è un sistema di memoria? Com'è il sistema di memoria di OpenClaw? Che aspetto ha una soluzione di livello enterprise?

Dovresti avere le risposte ora.

EverMind è un progetto eccellente:

  1. L'intero progetto è open source sotto Apache 2.0, attualmente con più di 4500 stelle.
  2. EverMind ha solide radici accademiche e algoritmiche, pubblicando costantemente paper; il loro precedente MSA era anche un concetto molto avanzato.
  3. EverMind è un'azienda AI Native sotto Shanda, con molte risorse.

Se hai intenzione di iniziare a imparare i sistemi di memoria per Agenti da questo progetto, sentiti libero di mettere una stella:

github.com/EverMind-AI/EverOS

Hanno anche nuovi prodotti in arrivo alla fine del mese, non vedo!!

Questo è il mio primo tentativo di spiegare concetti tecnici in un articolo. Per renderlo comprensibile alla maggior parte delle persone, ho omesso molti dettagli.

La tecnologia coinvolta è complessa; sentiti libero di segnalare errori nei commenti per la correzione.

Se ti piace il mio articolo, puoi salvarlo, commentarlo, inoltrarlo agli amici e seguirmi.

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind

Altri pattern da decodificare

Articoli virali recenti

Esplora altri articoli virali