Supermemory ASMR: Raggiungere il 99% SOTA nella memoria degli agenti AI

Nota: Questo è stato un esperimento. Molti nel settore continuano a sostenere numeri sui benchmark che sono completamente falsi. Quindi abbiamo fatto questo, per mostrarti quanto sia facile manipolare il benchmark.

https://x.com/DhravyaShah/status/2036243995500966260

La memoria degli agenti potrebbe essere ora completamente risolta.

Tra qualche anno, MILIARDI di agenti saranno altamente personalizzati e specializzati per ogni utente, imparando e evolvendosi costantemente su tutto ciò che facciamo. È per questo che studiamo la memoria dell'IA da anni. Cosa succederà quando la perfezioneremo finalmente?

Qualche mese fa, abbiamo pubblicato il nostro primo rapporto di ricerca che mostrava Supermemory raggiungere circa l'85% su LongMemEval-s, un risultato che ci ha messi davanti a ogni sistema di memoria con benchmark pubblico all'epoca. Oggi pubblichiamo un nuovo risultato: circa il 99% su LongMemEval_s.

Per essere assolutamente chiari fin dall'inizio: questo non è ancora nel nostro motore Supermemory di produzione principale. Piuttosto, questo blog riguarda un nuovo flusso agentico altamente sperimentale che abbiamo costruito per vedere esattamente quanto potessimo spingere i limiti assoluti del recupero della memoria e del ragionamento, indipendentemente dai nostri vincoli di produzione principali. Qualche mese di ricerca ci ha portati qui.

Ecco come ci siamo arrivati. Presentiamo la nostra nuova tecnica: ASMR (Agentic Search and Memory Retrieval)

Questa tecnica è:

Molto facile da implementare
Non richiede un Database Vettoriale o embeddings e può essere eseguita completamente in memoria
Ciò significa che può essere integrata in altri sistemi, persino in cose come i robot.

Introduzione

LongMemEval è uno dei benchmark pubblici più rigorosi per la memoria a lungo termine. A differenza dei benchmark che testano il semplice recupero su contesti brevi, LongMemEval è progettato per simulare il caos degli ambienti di produzione reali: cronologie di conversazioni di oltre 115k token, informazioni contraddittorie, eventi distribuiti su più sessioni e domande che richiedono ragionamenti sul tempo.

Il motivo per cui la maggior parte dei sistemi di memoria ottiene punteggi scarsi è solitamente il recupero, non il ragionamento. Anche quando il richiamo è alto, se c'è molto rumore nel recupero, l'LLM potrebbe avere difficoltà a usarlo. Il problema è ottenere solo le informazioni giuste nella finestra di contesto in primo luogo, ed è ancora più difficile: sapere quando un fatto recuperato è obsoleto e una versione più recente lo sostituisce.

Per risolvere questo problema, ci siamo allontanati dal RAG tradizionale e abbiamo costruito una pipeline orchestrata multi-agente.

Setup e Architettura Sperimentale

La ricerca vettoriale standard è generalmente buona. Tuttavia, fallisce quando si ha a che fare con la complessità dei dati temporali densi e multi-sessione. La corrispondenza per similarità semantica non può distinguere in modo affidabile tra un fatto vecchio e una nuova correzione. Per affrontare le complessità di LongMemEval, abbiamo dovuto ripensare la nostra pipeline di ingestione e recupero da zero, sostituendo la matematica vettoriale con il ragionamento agentico attivo.

Proprio come ASMR, questa tecnica è semplice e soddisfacente.

1. Orchestrazione e Ingestione Parallela (Agenti Osservatori)

Invece di suddividere e incorporare le sessioni utente, abbiamo implementato un orchestratore di agenti che utilizza 3 agenti lettori (osservatori) paralleli (alimentati da Gemini 2.0 Flash). Questi agenti leggono le sessioni grezze contemporaneamente (es., Agente 1 prende le sessioni 1, 3, 5; Agente 2 prende le sessioni 2, 4, 6).

Il loro obiettivo è l'estrazione mirata della conoscenza attraverso sei vettori: Informazioni Personali, Preferenze, Eventi, Dati Temporali, Aggiornamenti e Info Assistente. Questi risultati strutturati vengono poi memorizzati in modo nativo e mappati alle loro sessioni di origine.

2. Recupero Agentico Attivo (Agenti di Ricerca)

Quando arriva una domanda, non interroghiamo un database vettoriale. Invece, implementiamo 3 agenti di ricerca paralleli. Questi agenti leggono e ragionano attivamente sui risultati memorizzati, ciascuno con un focus specializzato:

Agente 1: Cerca fatti diretti e dichiarazioni esplicite.
Agente 2: Cerca contesto correlato, segnali sociali e implicazioni.
Agente 3: Ricostruisce le linee temporali e le mappe delle relazioni.

L'orchestratore compila i risultati di tutti e tre gli agenti di ricerca, estraendo estratti di sessione testuali per la verifica dei dettagli. Ciò consente un recupero intelligente basato sulla comprensione cognitiva effettiva, piuttosto che solo su parole chiave o similarità matematica.

3. Gli Ensemble di Risposta Orchestrati dagli Agenti

Una volta assemblato il contesto, un singolo prompt non può gestire la varietà di tipi di domande in LongMemEval. Alcune domande richiedono di dedurre dettagli, mentre altre richiedono di essere estremamente specifici. Abbiamo sperimentato due distinti flussi di risposta agentici:

Run 1: L'Ensemble a 8 Varianti (98,60% di Accuratezza)

Nel nostro primo approccio, abbiamo instradato il contesto recuperato attraverso 8 varianti di prompt altamente specializzate eseguite in parallelo (es., un Contatore Preciso, uno Specialista del Tempo, un'Analisi Approfondita del Contesto). Ogni variante valutava indipendentemente il contesto e generava una risposta. Se una qualsiasi delle 8 distinte vie di ragionamento arrivava con successo alla verità di base, la domanda veniva contrassegnata come corretta. Questo approccio di giudizio multi-parallelo ci ha permesso di raggiungere un'impressionante accuratezza complessiva del 98,60%, coprendo perfettamente i nostri punti ciechi.

Run 2: La Foresta Decisionale a 12 Varianti (97,20% di Accuratezza)

Per testare un sistema che produce una risposta singola e autorevole piuttosto che fare affidamento su molteplici tentativi indipendenti, abbiamo ampliato la nostra architettura in una Foresta Decisionale a 12 Varianti.

Qui, 12 agenti altamente specializzati (alimentati da GPT-4o-mini) rispondevano indipendentemente al prompt. Poi, abbiamo introdotto un LLM Aggregatore per agire come giudice finale. L'Aggregatore sintetizzava le 12 risposte utilizzando il voto di maggioranza, la fiducia nel dominio e la risoluzione dei conflitti. Questo modello di consenso singolo ha raggiunto anche un'incredibile accuratezza del 97,20%.

Risultati

Le prestazioni di questa architettura sperimentale cambiano fondamentalmente ciò che è possibile nella memoria a lungo termine dell'IA. Per comprendere la portata di questo risultato, ecco come i nostri flussi agentici sperimentali si confrontano sia con il nostro motore di produzione originale che con il settore in generale:

Questo sistema inoltre non influisce sulla latenza dell'agente quanto ci si aspetterebbe, tuttavia questo è un punto su cui stiamo costantemente lavorando.

Cosa abbiamo imparato e cosa succederà dopo

Costruire un sistema che raggiunge circa il 99% di accuratezza su un benchmark di livello produttivo ci ha fornito alcune intuizioni ingegneristiche critiche:

Il Recupero Agentico Supera la Ricerca Vettoriale: Abbandonare gli embeddings vettoriali per agenti di ricerca attivi è stato il singolo più grande passo avanti. Gli agenti che cercano attivamente il contesto hanno eliminato la trappola della similarità semantica che causa il fallimento del RAG tradizionale sui cambiamenti temporali e gli aggiornamenti.
L'Elaborazione Parallela è Fondamentale: Suddividere i carichi di lavoro di ingestione e recupero tra più agenti dedicati (3 lettori, 3 ricercatori) ha migliorato drasticamente sia la velocità che la granularità dell'estrazione dei fatti. Ha anche aiutato a prevenire i conflitti, poiché a ogni agente è stato permesso di avere un focus specializzato durante l'estrazione.
La Specializzazione Supera la Generalizzazione: Instradare il contesto attraverso agenti specialisti dedicati (come un Contatore o un Estrattore di Dettagli) supera di gran lunga qualsiasi singolo prompt master.

Poiché si trattava di un ambiente sperimentale piuttosto che del nostro motore Supermemory principale, vogliamo che la comunità IA possa imparare da questa architettura e costruirci sopra.

Presto rilasceremo il codice completo per questo flusso agentico sperimentale come open source. La memoria è una sfida in continua evoluzione, e mentre questa ricerca spinge il limite di ciò che è possibile, stiamo già guardando a come tradurre queste tecniche di recupero puramente agentiche nei nostri ambienti di produzione principali.

Esattamente tra 11 giorni (inizio di aprile) , pubblicheremo e rilasceremo come open source tutto su questo nuovo sistema di memoria per agenti. Sarà costruito in pubblico, uno spettacolo per tutti voi da vedere. Ci stiamo divertendo.

Dai un'occhiata al nostro github https://github.com/supermemoryai e tieni d'occhio lì per un rilascio 👀

La memoria degli agenti è ora (probabilmente) un problema risolto?

Abbiamo superato i confini della memoria degli agenti: vi presentiamo il sistema di memoria SOTA al ~99%.

Introduzione

Setup e Architettura Sperimentale

Risultati

Cosa abbiamo imparato e cosa succederà dopo

Turn one viral article into a full content workflow

Articoli virali recenti

Come padroneggiare Fable (Guida ai fondamenti)

I geni non aprono Fable 5: come completare il tuo lavoro usando solo Claude Sonnet 5

PorTAL: Portable Task Adapters per LLM

Il vero manuale che ho scoperto dopo aver usato NotebookLM ogni giorno per un anno

Ti presentiamo OpenWiki, un agente open source per la documentazione dei repository

La Grande Discesa