Comment les agents IA mémorisent-ils ? Un guide détaillé, des principes à la pratique

Récemment, la mémoire à long terme pour les Agents est devenue très populaire, et tout le monde parle de systèmes de mémoire.

Mais quand on regarde ces explications, la plupart se résument, la plupart ne font que vous balancer des termes : bases de données vectorielles, RAG, fenêtres de contexte, compression, mémoire épisodique…

Après avoir lu, vous n’arrivez toujours pas à expliquer exactement comment ça fonctionne, n’e, n’est-ce pas ?

Ce n’est pas de votre faute ; la plupart des articles supposent que vous avez déjà des bases.

Cependant, les systèmes de mémoire des Agents est actuellement le sujet le plus chaud dans les entretiens. Si vous ne comprenez pas, vous serez désavantagé au travail comme en entretien et dans les entretiens.

Alors, dans cet article, dans cet article, je vais adopter une approche différente, en partant des bases sans accumuler le jargon ! Je vais faire de mon mieux pour que tout le monde comprenne !

Je vous garantis qu’après avoir lu, vous serez capable de répondre vous-même à ces trois questions :

Qu’estions :

Qu’est-ce qu’un système de mémoire ?

Comment comprendre le système de mémoire d’OpenClaw ?

À quoi ressemble une solution d’entreprise ? J’ai choisi EverOS (github.com/EverMind-AI/EverOS

Cet article est assez long et m’a pris plusieurs jours à écrire. Si vous avez des amis intéressés par la mémoire des Agents, vous pouvez le mettre en favori et le leur transmettre plus tard.

Connaissances de base sur les systèmes de mémoire des Agents

Cette section explique principalement comment les Agents maintiennent la mémoire au sein d’une même session et entre différentes sessions. Si vous comprenez déjà, n’hésitez pas à passer.

Tout d’abord, il n’y a pas de mémoire entre deux appels API à un grand modèle. Qu’est-ce que ça veut dire ?

Par exemple : Si vous dites que vous aimez manger des oranges dans la première appel, mais que vous n’ajoutez pas « J’aime les oranges » dans la deuxième appel, le modèle n’aura aucun souvenir de votre préférence.

Alors comment un Agent maintient-il cette mémoire pendant une conversation ?

D’abord, chaque fois que vous posez une question, le système envoie tout votre historique de chat précédent. Le modèle le voit, ce qui assure la mémoire à court terme.

Mais quand l’historique devient si long qu’il dépasse la fenêtre de contexte maximale du modèle, il compresse l’historique. Il résume l’historique de la conversation en cours et le réinjecte dans le prompt, créant ainsi de l’espace pour continuer la conversation.

C’est le principe de la façon dont un modèle maintient la mémoire dans une longue conversation unique longue conversation. Si vous êtes un peu confus, regardez le diagramme ci-dessous :

Maintenant vous savez comment la mémoire est maintenue dans une seule session, mais comment est-elle maintenue entre différentes sessions de chat ?

C’est là qu’intervient le système de mémoire à long terme !!

Ce qu’il fait, c’est stocker les informations importantes dans un espace de stockage lorsque votre contexte est compressé ou lorsque vous demandez de vous souvenir de quelque chose.

Ensuite, lorsque vous démarrez une nouvelle conversation, il extrait et ajoute les informations pertinentes au prompt au moment opportun.

En « remplaçant l’ancien par le nouveau », il crée l’illusion de se souvenir de beaucoup de choses. C’est similaire à la mémoire de travail humaine et à la mémoire à long terme.

Bon, avec ces connaissances de base sur la mémoire, nous pouvons passer à la compréhension de ce qu’est un système de mémoire.

Ci-dessous, je vais vous donner un cadre conceptuel. Si vous le lisez jusqu’au bout, je vous garantis que vous aurez une compréhension de base de toute solution de système de mémoire.

Le système de mémoire

Il existe au moins des dizaines de solutions qui prétendent donner aux Agents une mémoire à long terme. Comment étudier autant de solutions ?

Ensuite, je vais décomposer un article pour vous donner une compréhension de base de la mémoire à long terme des Agents, puis comparer les différences entre OpenClaw et d’autres frameworks de mémoire pour une meilleure compréhension.

Google a publié un article en novembre 2025 intitulé « Context Engineering, Sessions and Memory ».

Dans cet article, ils suivent les méthodes des sciences cognitives d’il y a un demi-siècle, divisant la mémoire des Agents en trois catégories :

Mémoire épisodique : Ce qui s’est passé hier, ce qui a été discuté la dernière fois.
Mémoire sémantique : Quel est votre nom, ce que vous aimez, quelle est votre identité.
Mémoire procédurale : Comment accomplir une tâche, quel est le processus.

Ensemble, ces trois types de mémoire constituent la mémoire de l’Agent.

Mais ce n’est que la moitié de l’histoire ; l’autre moitié concerne la façon de maintenir et d’utiliser la mémoire.

Tout comme les humains, les Agents ne peuvent pas se souvenir de tout. Par conséquent, un système de mémoire a besoin d’une méthode fiable pour extraire les informations importantes de l’historique de conversation, puis les sauvegarder.

J’appelle cette étape Extraction.

De plus, nous devons organiser et fusionner les souvenirs.

Par exemple :

Il y a trois mois, j’ai dit que j’étais à Dali, mais plus tard j’ai déménagé à Chengdu. Si ces informations ne sont pas fusionnées, la mémoire contiendra des entrées contradictoires.

La bonne approche est de mettre à jour la mémoire en « L’utilisateur est à Chengdu » après mon déménagement.

J’appelle cette étape Mise à jour.

Il y a aussi l’étape de Récupération, qui implique de nombreuses méthodes : recherche par mots-clés, recherche sémantique, recherche hybride, ou utilisation de grands modèles pour récupérer.

Donc.

Donc, pour comprendre un système de mémoire, vous avez seulement besoin devez seulement comprendre ces deux aspects :

Combien de catégories de mémoire existe-t-il et que stocke chacune ?
Comment la mémoire est-elle extraite, mise à jour et récupérée ?

Maintenant, en utilisant ce cadre, découvrons comment la mémoire à la mémoire à long terme d’OpenClaw est implémentée.

Combien de catégories de mémoire OpenClaw a-t-il et que stocke-t-il ?

Sa mémoire est divisée en trois types suivants :

memory.md (Mémoire) : Appartient à la mémoire sémantique ; stocke votre identité, vos préférences et des faits stables.

daily logs : Appartient à la mémoire épisodique ; enregistre ce qui s’est passé chaque jour, organisé par date. Il ajoute seulement de nouvelles entrées et ne supprime jamais.

session snapshots : Appartient à la couche épisodique ; lorsque vous utilisez les commandes /new ou /reset pour démarrer une nouvelle session, il résume les 15 derniers messages « significatifs » de l’ancienne conversation et les enregistre enregistre sous forme de fichier markdown.

Comment se font l’extraction, la mise à jour et la récupération ?

L’extraction se produit dans trois situations :

Lorsqu’une conversation est sur le point d’être compressée : Les informations précieuses sont écrites dans les daily logs.
Lorsque vous utilisez /new ou /reset pour démarrer une nouvelle session : Les informations précieuses sont sauvegardées dans les session snapshots.
Lorsque l’utilisateur demande de se souvenir de quelque chose : Le système décide dans quel type de mémoire le stocker.

La récupération se produit dans deux situations :

Lors du démarrage d’une nouvelle conversation : memory.md est automatiquement injecté dans le prompt, et il lit également les daily logs d’aujourd’hui et d’hier pour le contexte récent.
Lorsqu’OpenClaw estime nécessaire de vérifier la mémoire : Il appelle la recherche de mémoire, trouve l’emplacement de la mémoire via une recherche hybride (mots-clés + vecteurs), puis lit le contenu du fichier via memory get.

Quand la mise à jour se produit-elle ? Mon interprétation personnelle est qu’elle se produit lors de l’extraction, lorsqu’on décide quoi retenir.

Si vous ne comprenez toujours pas bien, regardez le diagramme ci-dessous :

Maintenant vous avez une certaine compréhension des systèmes de mémoire, mais honnêtement, le système d’OpenClaw a plusieurs problèmes :

Il consomme beaucoup de tokens.
Si le Markdown disparaît, la mémoire disparaît.
Il oublie souvent des choses.

Cependant, les véritables systèmes de mémoire d’entreprise comportent de nombreuses optimisations pour garantir la stabilité. La technologie qui les sous-tend mérite d’être comprise par toute personne passionnée de technologie.

Ensuite, je vais analyser les systèmes de mémoire des Agents de niveau entreprise !!

Systèmes de mémoire des Agents de niveau entreprise

À l’ère de l’IA, chaque programmeur devrait comprendre la technologie derrière les systèmes de mémoire des Agents de niveau entreprise ; sinon, vous perdrez votre avantage concurrentiel.

Pourquoi ?

Parce que les grands modèles continueront à absorber notre travail de programmation. Le seul choix est de construire des systèmes de support pour eux.

Pour faciliter l’explication, je vais choisir une solution open source appelée EverOS pour la décomposer.

Si vous prévoyez de commencer à apprendre les systèmes de mémoire des Agents à partir de ce projet, n’hésitez pas à lui donner une étoile :

github.com/EverMind-AI/EverOS

Comme je l’ai dit plus tôt, pour comprendre un système de mémoire, vous devez seulement répondre à deux questions.

Comment EverOS y répond-il ?

Question 1 : Comment la mémoire est-elle catégorisée ?

Le cadre général comporte 3 types, mais EverOS décompose chacun d’eux plus en détail, comme indiqué ci-dessous :

Mémoire sémantique Mémoire à long terme de qui vous êtes, divisée en deux couches :
Traits stables : Vous êtes un couche-tard, un programmeur, vivez à Pékin—des choses qui ne changent pas longtemps.
États temporaires : Vous avez veillé tard aujourd’hui, avez été occupé cette semaine, avez eu un rhume la semaine dernière semaine.

Mémoire épisodique Divisé en trois types :
Épisode : Un résumé condensé d’une conversation ou d’une tâche, pas un journal quotidien. Exemple : L’utilisateur a demandé comment déployer un modèle, s’est bloqué sur les variables d’environnement, et a passé 30 minutes dessus.
EventLog : Extrait des faits clés des conversations, chacun avec un horodatage. Exemple : 2026-05-10 L’utilisateur a acheté un Mac mini, 2026-05-12 L’utilisateur a lié GitHub.
Foresight : « Prochaines « prochaines étapes » liées au fil du temps—des choses que vous avez dites que vous feriez ou qu’il déduit que vous impliquerez plus tard, avec des dates d’expiration pour les rappels. Exemple : Envoyer la proposition avant vendredi prochain.

Mémoire procédurale Div deux types :
Agent Case : Après avoir terminé une tâche, il enregistre « ce qui était prévu + actions étape par étape + un score de qualité. » Exemple : Envoyer un e-mail—il vérifie les contacts, rédige, demande confirmation, puis envoie—tout cet ensemble est archivé avec un score de qualité.
Agent Skill (Compétence distillée) : Après avoir effectué des tâches similaires plusieurs fois, il distille automatiquement une approche générale à partir de ces archives, avec un score de maturité. Plus il est fait, plus il devient fiable. Exemple : Après 5 tâches d’e-mail, il apprend à vérifier si le destinataire est une personne clé avant de décider d’un ton formel ou décontracté.

Comme vous pouvez le voir, EverOS divise les 3 catégories originales en 6 types, permettant un stockage plus précis et une mémoire plus efficace.

De plus, il est plus similaire à la mémoire humaine—il prédit le futur et résume/affine et résume/affine les compétences.

Question 2 : Comment se font l’extraction, la mise à jour et la récupération ?

Comment la mémoire est-elle extraite ?

EverOS juge automatiquement si « ce segment est terminé ». Une fois terminé, il le coupe et l’emballe dans une unité de mémoire.

Chaque unité contient 4 choses :

Intrigue : Ce qui a été discuté et fait—un résumé condensé, pas mot pour mot.
Faits clés : Quels faits à l’intérieur méritent d’être notés séparément.
Foresight : Choses que vous avez dites que vous feriez ou qu’il déduit que vous ferez, avec des dates d’expiration pour les rappels.
Balises de contexte : Quand, où, à quel point crédible, et quelle était l’émotion à ce moment-là.

Vous discutez simplement ; il gère les détails de segmentation.

Comment la mémoire est-elle mise à jour ?

Par exemple :

Il y a mois, vous avez dit à l’IA : Je prévois de commencer à faire de l’exercice. Deux semaines plus tard, vous avez dit : J’ai été occupé, je ne suis pas allé à la salle de sport. Aujourd’hui vous dites : Laisse tomber, je ne fais plus d’exercice.

Les solutions ordinaires empilent les trois dans le journal. Celui que le modèle récupère est considéré comme le fait. Mais en réalité, la réponse devrait être la plus récente.

EverOS s’appu « Consolidation sémantique », qui fait trois choses :

Détermine automatiquement quelle est la plus récent (arrêt de l’exercice).
Fusionne les doublons ou les choses se référant au même événement.
Maintient un profil utilisateur, séparant les préférences stables des états temporaires (officiellement appelé Évolution du profil).

Les détails sont présentés ci-dessous :

Comment la mémoire est-elle récupérée ?

EverOS vous donne 4 méthodes de récupération au choix selon le scénario :

Mots-clés : Correspondance exacte, adaptée aux noms ou ID spécifiques.
Recherche vectorielle : Correspondance sémantique—des mots différents avec le même sens peuvent correspondre.
Hybride : Mots-clés + vecteurs ensemble, puis filtrés par un modèle de reclassement—le défaut recommandé.
Agentic : Pour les questions complexes en plusieurs parties ; le LLM juge quoi et comment chercher, en itérant jusqu’à trouver (utilisé quand l’hybride ne suffit pas).

Mais les 4 méthodes ne sont pas la clé ; la clé est la logique de récupération.

Les solutions ordinaires sont passives—vous donnez des mots-clés, elle retourne les documents correspondants, et c’est tout.

EverOS reconstruit activement le contexte :

Analyse ce que vous voulez faire cette fois.
Active les scénarios thématiques pertinents.
Filtre les informations expirées (par exemple, les préférences d’il y a un an pourraient être invalides).
Cherche de manière itérative jusqu’à ce qu’assez d’informations soient rassemblées.

Les solutions ordinaires sont comme un moteur de recherche qui s’arrête après une recherche. EverOS cherche à plusieurs reprises sous différents angles jusqu’à trouver suffisamment d’informations.

EverOS a atteint une précision globale de 93,05 % sur le benchmark de mémoire à long terme LoCoMo (en utilisant GPT-4o-mini), battant la solution de comparaison Zep (85,22 %) de près de 8 points de pourcentage.

Après avoir lu cette section, vous devriez avoir une bonne idée des systèmes de mémoire des Agents de niveau production. Mais comment se concrétisent-ils dans l’ingénierie réelle, et que pouvez-vous en faire ?

Implémentation réelle en production

Je vais continuer à utiliser ce projet open source pour expliquer pour deux raisons : l’API est ouverte gratuitement, et le dépôt contient 20 cas réels—parfaits pour discuter de l’implémentation !!

API ouverte gratuite

L’API Cloud d’EverOS est ouverte gratuitement.

Trois étapes pour commencer :

Ouvrez everos.evermind.ai dans votre navigateur pour vous inscrire ; la page vous donne une clé API Key, sauvegardez-la.
Installez le SDK via la ligne de commande : pip install everos
Instanciez le client en Python et commencez à l’utiliser.

EverOS n’est pas seulement gratuit à essayer, mais il prend également en charge la fonctionnalité d’auto-évolution des compétences récemment populaire !!

Comment utiliser l’auto-évolution des compétences ?

Lorsqu’un Agent effectue à plusieurs reprises des tâches similaires, EverOS distille automatiquement l’expérience en compétences réutilisables. La prochaine fois qu’une tâche similaire se présente, il utilise directement la compétence au lieu de repartir de zéro.

L’utiliser dans le code implique d’enchaîner 3 APIs :

Deux points à noter :

La première fois que vous fournissez une trajectoire, il génère seulement un cas (archive d’une seule tâche). Les compétences ne sont regroupées et distillées qu’après plusieurs tâches similaires.
Vous devez utiliser le point de terminaison /memories/agent ; les /memories réguliers n’extraient pas les compétences.

Si vous ne comprenez pas la fonctionnalité d’auto-évolution des compétences, regardez le diagramme ci-dessous :

J’ai brièvement mentionné l’utilisation du code, mais en tant qu’infrastructure pour Agents, ce projet a des cas d’utilisation réels extrêmement précieux.

Et ces cas sont tous open source et prêts à être appris !!

20 cas d’utilisation réels

Le README du dépôt liste 20 cas d’utilisation, en voici quelques-uns :

MemoCare (Assistant mémoire pour Alzheimer) : Fournit une mémoire externe qui n’oublie jamais pour les patients souffrant de déclin cognitif—c’est l’un des projets de bienfaisance les plus réchauffants.
Plugin Claude Code : Ajoute une mémoire à long terme à Claude Code, se souvenant entre les sessions.
Game of Thrones : Alimente l’IA avec les intrigues de GoT pour jouer des personnages qui se souviennent de qui ils sont à long terme.
OpenHer : Petite amie IA, compagnie émotionnelle + évolution de la mémoire.
Computer-Use with Memory : Permet à l’Agent de contrôler un ordinateur et de se souvenir des expériences de chaque opération.
Memory Graph Visualization : Visualise le système de mémoire sous forme de graphe.

La liste complète se trouve dans le README sur github.com/EverMind-AI/EverOS.

Au fait, voici quelques plugins officiels :

Les APIs ne suffisent pas, alors EverOS a emballé les capacités de mémoire dans plusieurs plugins prêts à l’emploi :

Plugin Claude Code : Ajoute une mémoire à long terme à Claude Code—sauvegarde automatiquement après chaque réponse et rappelle le contexte pour chaque question, avec un panneau Memory Hub visuel. Installez-le avec une seule commande.
Plugin OpenClaw Plugin : Connecte EverOS comme un « slot de mémoire » pour OpenClaw—l’Agent récupère automatiquement la mémoire pertinente (intrigues, profils, cas, compétences) avant de s’exécuter et sauvegarde la conversation et les appels d’outils après.
OpenClaw Skill : Connecte les outils de mémoire d’EverOS à OpenClaw / Claude Code en tant que « compétences », permettant à l’Agent d’appeler la mémoire selon les besoins plutôt que de l’avoir en permanence.

Revenons aux trois questions du début :

Qu’est-ce qu’un système de mémoire ? Comment est le système de mémoire d’OpenClaw ? À quoi ressemble une solution d’une solution d’entreprise ?

Vous devriez avoir les réponses maintenant.

EverMind est un excellent projet :

L’ensemble du projet est open source sous licence Apache 2.0, actuellement avec plus de 4500 étoiles.
EverMind a de solides racines académiques et algorithmiques, publiant constamment des articles ; leur précédent MSA était également un concept très avancé.
EverMind est une entreprise AI Native sous Shanda, avec beaucoup de ressources.

Si vous prévoyez de commencer à apprendre les systèmes de mémoire des Agents à partir de ce projet, n’hésitez pas à lui donner une étoile :

github.com/EverMind-AI/EverOS

Ils lancent également de nouveaux produits à la fin du mois, hâte de voir !!

C’est ma première tentative d’expliquer des concepts techniques dans un article. Pour le rendre compréhensible pour la plupart des gens, j’ai omis de nombreux détails.

La technologie impliquée est complexe ; n’hésitez pas à signaler des erreurs dans les commentaires pour correction.

Si vous aimez mon article, vous pouvez le mettre en favori, commenter, le transmettre à des amis et me suivre.

Connaissances de base sur les systèmes de mémoire des Agents

Le système de mémoire

Systèmes de mémoire des Agents de niveau entreprise

Implémentation réelle en production

Use YouMind to read viral articles deeply

Articles viraux récents

Comment je gère une « bibliothèque de prompts » de 100 prompts dans NotebookLM

ArsenalOS™ : L'épine dorsale numérique de la fabrication de défense moderne

ORACLE : Des agents IA officiels pour le trading sur Polymarket

7 obstacles opérationnels et organisationnels à la mise en œuvre d'agents IA

We Need Knights Templar for First Principles Thinking

Une seule personne, une entreprise de classe mondiale : Le manifeste de l'économie des agents