Nous avons repoussé les limites de la mémoire des agents : voici notre système de mémoire SOTA à ~99 %.

@DhravyaShah
ANGLAISil y a 3 mois · 22 mars 2026
2.6M
3.9K
412
260
8.4K

TL;DR

Dhravya Shah présente ASMR, un flux agentique expérimental qui utilise des agents LLM parallèles au lieu de bases de données vectorielles pour obtenir des scores quasi parfaits sur les benchmarks de mémoire.

Note : Ceci était un coup de communication. Beaucoup dans l'industrie continuent d'affirmer des chiffres complètement faux sur les benchmarks. C'est donc ce que nous avons fait, pour vous montrer à quel point il est facile de truquer un benchmark.

https://x.com/DhravyaShah/status/2036243995500966260

La mémoire des agents est peut-être désormais un problème complètement résolu.

Dans quelques années, des MILLIARDS d'agents seront hautement personnalisés et spécialisés par utilisateur, apprenant et évoluant constamment sur tout ce que nous faisons. C'est pourquoi nous faisons des recherches sur la mémoire de l'IA depuis des années maintenant. Que se passe-t-il lorsque nous la perfectionnons enfin ?

Il y a quelques mois, nous avons publié notre premier rapport de recherche montrant que Supermemory atteignait ~85 % sur LongMemEval, un résultat qui nous plaçait en tête de tous les systèmes de mémoire évalués publiquement à l'époque. Aujourd'hui, nous publions un nouveau résultat : ~99 % sur LongMemEval_s.

Pour être absolument clair d'emblée : ce n'est pas (encore) dans notre moteur Supermemory de production principal. Ce blog couvre plutôt un nouveau flux agentique hautement expérimental que nous avons construit pour voir jusqu'où nous pouvions repousser les limites absolues de la récupération et du raisonnement de la mémoire, indépendamment de nos contraintes de production principales. Quelques mois de recherche nous ont menés ici.

Voici comment nous y sommes arrivés. Présentation de notre nouvelle technique : ASMR (Agentic Search and Memory Retrieval - Recherche Agentique et Récupération de Mémoire)

Cette technique est :

  • Très facile à implémenter
  • Ne nécessite ni base de données vectorielle ni embeddings et peut être réalisée entièrement en mémoire
  • Cela signifie qu'elle peut être intégrée dans d'autres systèmes, y compris des robots.

Introduction

LongMemEval est l'un des benchmarks publics les plus rigoureux pour la mémoire à long terme. Contrairement aux benchmarks qui testent une simple récupération sur des contextes courts, LongMemEval est conçu pour simuler le chaos des environnements de production réels : historiques de conversations de plus de 115 000 tokens, informations contradictoires, événements répartis sur plusieurs sessions et questions nécessitant un raisonnement temporel.

La raison pour laquelle la plupart des systèmes de mémoire obtiennent de mauvais résultats est généralement la récupération, pas le raisonnement. Même lorsque le rappel est élevé, s'il y a beaucoup de bruit dans la récupération, le LLM peut avoir du mal à l'utiliser. Le problème est d'obtenir uniquement les bonnes informations dans le contexte en premier lieu, et plus difficile encore : savoir quand un fait récupéré est obsolète et qu'une version plus récente le remplace.

Pour résoudre cela, nous nous sommes éloignés du RAG traditionnel et avons construit un pipeline orchestré multi-agents.

Configuration et Architecture Expérimentale

La recherche vectorielle standard est bonne en général. Cependant, elle s'effondre face aux nuances des données temporelles denses et multi-sessions. La correspondance par similarité sémantique ne peut pas distinguer de manière fiable un ancien fait d'une nouvelle correction. Pour relever les défis de LongMemEval, nous avons dû repenser notre pipeline d'ingestion et de récupération de A à Z, en remplaçant les calculs vectoriels par un raisonnement agentique actif.

Comme ASMR, cette technique est simple et satisfaisante.

1. Orchestration Parallèle et Ingestion (Agents Observateurs)

Au lieu de découper et d'encoder les sessions utilisateur, nous avons déployé un orchestrateur d'agents utilisant 3 agents lecteurs (observateurs) parallèles (alimentés par Gemini 2.0 Flash). Ces agents lisent les sessions brutes simultanément (par exemple, l'Agent 1 prend les sessions 1, 3, 5 ; l'Agent 2 prend les sessions 2, 4, 6).

Leur objectif est l'extraction ciblée de connaissances à travers six vecteurs : Informations Personnelles, Préférences, Événements, Données Temporelles, Mises à Jour et Informations sur l'Assistant. Ces résultats structurés sont ensuite stockés nativement et mappés à leurs sessions sources.

2. Récupération Agentique Active (Agents de Recherche)

Lorsqu'une question arrive, nous n'interrogeons pas une base de données vectorielle. Au lieu de cela, nous déployons 3 agents de recherche parallèles. Ces agents lisent et raisonnent activement sur les résultats stockés, chacun avec un focus spécialisé :

  • Agent 1 : Recherche les faits directs et les déclarations explicites.
  • Agent 2 : Recherche le contexte connexe, les indices sociaux et les implications.
  • Agent 3 : Reconstruit les chronologies temporelles et les cartes relationnelles.

L'orchestrateur compile les résultats des trois agents de recherche, en extrayant des extraits de session textuels pour une vérification détaillée. Cela permet une récupération intelligente basée sur une compréhension cognitive réelle plutôt que sur une simple similarité de mots-clés ou mathématique.

3. Les Ensembles de Réponses Orchestrés par Agents

Une fois le contexte assemblé, une seule invite ne peut pas gérer la grande variété de types de questions dans LongMemEval. Certaines questions nécessitent de déduire des détails, tandis que d'autres exigent d'être extrêmement précis. Nous avons expérimenté deux flux de réponse agentiques distincts :

Exécution 1 : L'Ensemble à 8 Variantes (Précision de 98,60 %)

Dans notre première approche, nous avons acheminé le contexte récupéré à travers 8 variantes d'invite hautement spécialisées fonctionnant en parallèle (par exemple, un Compteur Précis, un Spécialiste du Temps, une Analyse Approfondie du Contexte). Chaque variante a évalué indépendamment le contexte et généré une réponse. Si l'une des 8 voies de raisonnement distinctes parvenait à la vérité terrain, la question était marquée comme correcte. Cette approche de jugement multiple parallèle nous a permis d'atteindre une précision globale stupéfiante de 98,60 %, couvrant parfaitement nos angles morts.

Exécution 2 : La Forêt de Décision à 12 Variantes (Précision de 97,20 %)

Pour tester un système qui produit une réponse unique et faisant autorité plutôt que de s'appuyer sur de multiples tentatives indépendantes, nous avons étendu notre architecture en une Forêt de Décision à 12 variantes.

Ici, 12 agents hautement spécialisés (alimentés par GPT-4o-mini) ont répondu indépendamment à l'invite. Ensuite, nous avons introduit un LLM Agrégateur pour agir en tant que juge final. L'Agrégateur a synthétisé les 12 réponses en utilisant le vote majoritaire, la confiance par domaine et la résolution de conflits. Ce modèle de consensus unique a également atteint une précision incroyablement élevée de 97,20 %.

Dhravya Shah - inline image

Résultats

Les performances de cette architecture expérimentale changent fondamentalement ce qui est possible dans la mémoire IA à long terme. Pour comprendre l'ampleur de cette réalisation, voici comment nos flux agentiques expérimentaux se comparent à notre moteur de production original et à l'industrie dans son ensemble :

Dhravya Shah - inline image

Ce système n'affecte pas non plus la latence de l'agent autant qu'on pourrait s'y attendre - cependant, c'est un point sur lequel nous travaillons constamment.

Dhravya Shah - inline image

Ce que nous avons appris et la suite

Construire un système qui atteint ~99 % de précision sur un benchmark de qualité production nous a apporté quelques enseignements d'ingénierie critiques :

  1. La Récupération Agentique Bat la Recherche Vectorielle : Abandonner les embeddings vectoriels pour des agents de recherche actifs a été le plus grand catalyseur. Les agents recherchant activement le contexte ont éliminé le piège de la similarité sémantique qui fait échouer le RAG traditionnel face aux changements temporels et aux mises à jour.
  2. Le Traitement Parallèle est Crucial : Diviser les charges de travail d'ingestion et de récupération entre plusieurs agents dédiés (3 lecteurs, 3 chercheurs) a considérablement amélioré à la fois la vitesse et la granularité de l'extraction des faits. Cela a également aidé à prévenir les conflits, car chaque agent était autorisé à avoir un focus spécialisé lors de l'extraction.
  3. La Spécialisation Bat la Généralisation : Acheminer le contexte via des agents spécialistes dédiés (comme un Compteur ou un Extracteur de Détails) surpasse de loin toute invite maître unique.

Parce qu'il s'agissait d'un bac à sable expérimental plutôt que de notre moteur Supermemory principal, nous voulons que la communauté IA puisse apprendre de cette architecture et la développer.

Nous allons bientôt open-sourcer le code complet de ce flux agentique expérimental. La mémoire est un défi en constante évolution, et bien que cette recherche repousse le plafond du possible, nous cherchons déjà comment traduire ces techniques de récupération purement agentiques dans nos environnements de production principaux.

Dans exactement 11 jours (début avril) , nous publierons et open-sourcerons tout sur ce nouveau système de mémoire agentique. Il sera construit en public, un spectacle pour vous tous. Nous nous amusons.

Consultez notre GitHub https://github.com/supermemoryai et gardez un œil là-bas pour une sortie 👀

La mémoire des agents est maintenant (probablement) un problème résolu ?

Turn one viral article into a full content workflow

Collect the source, decode the pattern, create assets, draft the story, and distribute from one AI workspace.

Explore YouMind

D'autres patterns à décoder

Articles viraux récents

Explorer plus d'articles viraux