Como os Agentes de IA se lembram? Um guia detalhado dos princípios à prática

@lxfater
CHINÊShá 2 meses · 13 de mai. de 2026
388K
562
168
37
1.1K

TL;DR

Este guia explica a mecânica da memória de Agentes de IA, comparando o gerenciamento básico de sessões com estruturas corporativas avançadas como o EverOS, que utilizam consolidação semântica e destilação de habilidades.

Recentemente, a memória de longo prazo prazo para Agentes se tornou muito popular, e todo mundo está falando sobre sistemas de memória.

Mas quando você olha para essas explicações, a maioria só joga um monte de termos: bancos de dados vetoriais, RAG, janelas de contexto, compressão, memória episódica...

Depois de ler, você ainda não consegue explicar exatamente como funciona, não é?

A culpa não é sua; a maioria dos artigos assume que você já tem uma base.

No entanto, os sistemas de memória para Agentes são atualmente o tópicos quentíssimos em entrevistas atualmente. Se você não os entende, fica em desvantagem tanto no trabalho quanto nas entrevistas.

Então, neste post, vou adotar uma abordagem diferente, começando do comum, começando do básico sem acumular jargões! Vou tentar ao máximo tornar tudo compreensível para todos!!

Garanto que depois de ler, você conseguirá responder a estas três perguntas sozinho:

O que é um sistema de memória?

Como entendemos o sistema de memória do OpenClaw?

Como é uma solução de nível empresarial? Eu escolhi o EverOS (github.com/EverMind-AI/EverOS

铁锤人 - inline image

Este artigo é bem longo e me levou vários dias para escrever. Se você tem amigos interessados em memória para Agentes, você pode salvá-lo e encaminhá-lo para eles depois.

Conhecimento Básico Sobre Sistemas de Memória para Agentes

Esta seção aborda principalmente como os Agentes mantêm a memória dentro de uma única sessão e entre diferentes sessões. Se você já entende isso, fique à vontade para pular.

Primeiro, não há memória entre duas chamadas de API para um modelo grande. O que isso significa?

Por exemplo: se você diz que gosta de comer laranja na primeira chamada, mas não anexa "Eu gosto de comer laranja" ao prompt na segunda chamada, o modelo não terá memória da sua preferência.

Então, como um Agente mantém essa memória durante uma conversa?

Primeiro, toda vez que você pergunta, o sistema subjacente envia todo o seu histórico de chat anterior. O modelo vê isso, garantindo a memória de curto prazo.

Mas quando o histórico de chat fica tão longo que excede a janela de contexto máxima do modelo, ele comprime o histórico. Ele resume o histórico da conversa atual e o coloca de volta no prompt, criando espaço para continuar o bate-papo.

Este é o princípio de como um modelo mantém a memória em uma única conversa longa. Se você está um pouco confuso, veja o diagrama abaixo:

铁锤人 - inline image

Agora você sabe como a memória é mantida em uma única sessão, mas como ela é mantida entre diferentes sessões de chat?

É aí que entra o sistema de memória de longo prazo!!

O que ele faz é armazenar informações importantes em um espaço de armazenamento quando seu contexto é comprimido ou quando você solicita lembrar de algo.

Então, quando você inicia uma nova conversa, ele extrai e adiciona as informações relevantes ao prompt no momento apropriado.

Ao "trocar o velho pelo novo", ele cria a ilusão de lembrar de muitas coisas. Isso é semelhante à memória de trabalho humana e à memória de longo prazo.

铁锤人 - inline image

Certo, com esse conhecimento básico de memória, podemos avançar para entender o que é um sistema de memória.

Abaixo, vou dar uma estrutura conceitual. Se você terminar de ler, garanto que terá uma compreensão básica de qualquer solução de sistema de memória.

O Sistema de Memória

Existem pelo menos dezenas de soluções que afirmam dar memória de longo prazo aos Agentes. Como estudamos tantas?

Em seguida, vou detalhar um artigo para dar a você uma compreensão básica da memória de longo prazo para Agentes, e depois comparar as diferenças entre o OpenClaw e outros frameworks de memória para uma melhor compreensão.

O Google publicou um artigo em novembro de 2025 intitulado "Context Engineering, Sessions and Memory".

Neste artigo, eles seguem os métodos da ciência cognitiva de meio século atrás, dividindo a memória do Agente em três categorias:

  • Memória Episódica: O que aconteceu ontem, o que foi discutido da última vez.
  • Memória Semântica: Qual é o seu nome, do que você gosta, qual é a sua identidade.
  • Memória Procedimental: Como completar uma tarefa, qual é o processo.

Juntas, esses três tipos de memória constituem a memória do Agente.

铁锤人 - inline image

Mas isso é apenas metade da história; a outra metade é sobre como manter e usar a memória.

Assim como os humanos, os Agentes não conseguem lembrar de tudo. Portanto, um sistema de memória precisa de um método confiável para extrair informações importantes do histórico da conversa e depois salvá-las.

Eu chamo essa etapa de Extração.

Além disso, precisamos organizar e mesclar e mesclar memórias.

Por exemplo:

Há três meses, eu disse que estava em Dali, mas depois me mudei para Chengdu. Se essa informação não for mesclada, a memória conterá entradas contraditórias.

A abordagem correta é atualizar a memória para "O usuário está em Chengdu" depois que eu me mudar.

Eu chamo essa etapa de Atualização.

Há também a etapa de Recuperação, que envolve muitos métodos: pesquisa por palavras-chave, pesquisa semântica, pesquisa híbrida ou uso de modelos grandes para recuperar.

Então, para entender um sistema de memória, você só precisa entender esses dois aspectos:

  1. Quantas categorias de memória existem e o que cada uma armazena?
  2. Como a memória é extraída, atualizada e recuperada?
铁锤人 - inline image

Agora, usando este framework, vamos descobrir como a memória de longo prazo do OpenClaw é implementada.

Quantas categorias de memória o OpenClaw tem e o que cada uma armazena?

A memória dele é dividida nos seguintes três tipos:

  1. memory.md (Memória): Pertence à memória semântica; armazena sua identidade, preferências e fatos estáveis.
  1. daily logs: Pertence à memória episódica; registra o que aconteceu a cada dia, organizado por data. Ele só adiciona novas entradas e nunca exclui.
  1. session snapshots: Pertence à camada episódica; quando você usa os comandos /new ou /reset para iniciar uma nova sessão, ele resume as últimas 15 mensagens "significativas" da conversa antiga e as salva como um arquivo markdown.
铁锤人 - inline image

Como são feitas a extração, atualização e a atualização e a recuperação?

A extração ocorre em três situações:

  1. Quando uma conversa está prestes a ser comprimida: Informações valiosas são escritas nos daily logs.
  2. Quando você usa /new ou /reset para iniciar uma nova sessão: Informações valiosas são salvas nos session snapshots.
  3. Quando o usuário solicita lembrar de algo: O sistema decide em qual tipo de memória armazená-lo.

A recuperação ocorre em duas situações:

  1. Ao iniciar uma nova conversa: memory.md é automaticamente injetado no prompt, e também lê os daily logs de hoje e de hoje e de ontem para contexto recente.
  2. Quando o OpenClaw acha necessário verificar a memória: Ele chama a pesquisa de memória, encontra o local da memória via pesquisa híbrida (palavras-chave + vetores) e depois lê o conteúdo do arquivo via memory get.

Quando a atualização acontece? Meu entendimento pessoal é que ela acontece durante a extração, ao decidir o que lembrar.

Se você ainda não entendeu bem, veja o diagrama abaixo:

铁锤人 - inline image

Agora você tem algum entendimento sobre sistemas de memória, mas, para ser honesto, o sistema do OpenClaw tem vários problemas:

  1. Consome muitos tokens.
  2. Se o Markdown for perdido, a memória desaparece.
  3. Muitas vezes esquece coisas.

No entanto, os sistemas de memória verdadeiramente empresariais têm muitas otimizações para garantir estabilidade. A tecnologia por trás deles vale a pena ser entendida por quem ama tecnologia.

Em seguida, vou analisar os sistemas de memória para Agentes de nível empresarial!!

Sistemas de Memória para Agentes de Nível Empresarial

Na era da IA, todo programador deveria entender a tecnologia por trás dos sistemas de memória para Agentes de nível empresarial para Agentes; caso contrário, você perderá sua vantagem competitiva.

Por quê?

Porque os modelos grandes continuarão a consumir nosso trabalho de programação. A única escolha é construir sistemas de suporte para eles.

Para facilitar a explicação, vou escolher uma solução de código aberto chamada EverOS para detalhar.

Se você está planejando começar a aprender sobre sistemas de memória para Agentes a partir deste projeto, sinta-se à vontade para dar uma estrela:

github.com/EverMind-AI/EverOS

Como eu disse antes, para entender um sistema de memória, você só precisa responder a duas perguntas.

Como o EverOS as responde?

Pergunta 1: Como a memória é categorizada?

O framework geral tem 3 tipos, mas o EverOS detalha cada um ainda mais, como mostrado abaixo:

铁锤人 - inline image
  1. Memória Semântica: Memória de longo prazo sobre quem você é, dividida em duas camadas:
  2. Características Estáveis: Você é notívago, programador, mora em Pequim — coisas que não mudam por um longo tempo.
  3. Estados Temporários: Você ficou acordado até tarde hoje, esteve ocupado esta semana, esteve resfriado na semana passada.
  1. Memória Episódica: Dividida em três tipos:
  2. Episódio: Um resumo condensado de uma conversa ou tarefa, não um log diário. Exemplo: O usuário perguntou como implantar um modelo, ficou preso em variáveis de ambiente e gastou 30 minutos nisso.
  3. EventLog: Extrai fatos-chave das conversas, cada um com um carimbo de data/hora. Exemplo: 2026-05-10 O usuário comprou um Mac mini, 2026-05-12 O usuário vinculou o GitHub.
  4. Foresight: "Próximos passos" relacionados ao tempo — coisas que você disse que faria ou que ele infere que você se envolverá depois, com prazos de validade para lembretes. Exemplo: Enviar a proposta antes da próxima sexta-feira.
  1. Memória Procedimental em dois tipos:
  2. Agent Case: Depois de concluir uma tarefa, ele registra "o que foi pretendido + ações passo a passo + uma pontuação de qualidade." Exemplo: Enviar um e-mail — ele verifica contatos, rascunha, pede confirmação, depois envia — todo esse conjunto é arquivado com uma pontuação de qualidade.
  3. Agent Skill (Habilidade Destilada): Depois de fazer tarefas semelhantes várias vezes, ele automaticamente destila uma abordagem geral desses arquivos, com uma pontuação de maturidade. Quanto mais é feito, mais confiável se torna. Exemplo: Após 5 tarefas de e-mail, ele aprende a verificar se o destinatário é uma pessoa-chave antes de decidir entre um tom formal ou casual.

Como você pode ver, o EverOS divide as 3 categorias originais em 6 tipos, permitindo armazenamento mais preciso e memória mais eficaz.

Além disso, é mais semelhante à memória humana — ele prevê o futuro e resume/refina habilidades.

Pergunta 2: Como são feitas a extração, a atualização e a recuperação?

Como a memória é extraída?

O EverOS julga automaticamente se "este segmento terminou." Uma vez terminado, ele o corta e o empacota em uma unidade de memória.

Cada unidade contém 4 coisas:

  • Trama (Plot): O que foi discutido e feito — um resumo condensado, não palavra por palavra por palavra.
  • Fatos-Chave (Key Facts): Quais fatos internos merecem ser anotados separadamente.
  • Foresight: Coisas que você disse que faria ou que ele infere que você fará, com prazos de validade para lembretes.
  • Tags de Contexto (Context Tags): Quando, onde, quão crível e qual era a emoção no momento.

Você apenas conversa; ele cuida dos detalhes da segmentação.

铁锤人 - inline image

Como a memória é atualizada?

Por exemplo:

Há um mês, você disse ao AI: Estou planejando começar a malhar. Duas semanas depois, você disse: Estive ocupado, não fui à academia. Hoje você diz: Esquece, não vou mais malhar.

Soluções comuns empilham todos os três no log. Qualquer um que o modelo recupere é considerado o fato. Mas, na realidade, a resposta deveria ser a mais recente.

O EverOS conta com "Consolidação Semântica," que faz três coisas:

  • Determina automaticamente qual é o mais recente (parou de malhar).
  • Mescla duplicatas ou coisas que se referem ao mesmo evento.
  • Mantém um perfil do usuário, separando preferências estáveis de estados temporários (oficialmente chamado de Profile Evolution).

Detalhes são mostrados abaixo:

铁锤人 - inline image

Como a memória é recuperada?

O EverOS oferece 4 métodos de recuperação para você escolher com base no cenário:

  • Palavras-chave: Correspondência exata, adequada para nomes ou IDs específicos.
  • Pesquisa Vetorial: Correspondência semântica — palavras diferentes com o mesmo significado podem corresponder.
  • Híbrida: Palavras-chave + vetores juntos, depois filtrados por um modelo de reclassificação — o padrão recomendado.
  • Agentic: Usado para perguntas complexas de múltiplas partes; o LLM julga o que e como pesquisar, iterando até encontrar (usado quando o híbrido não é suficiente).

Mas os 4 métodos não são o segredo; o segredo é a lógica de recuperação.

Soluções comuns são passivas — você dá palavras-chave, ele retorna documentos correspondentes, e pronto.

O EverOS reconstrói ativamente o contexto:

  1. Analisa o que você quer fazer desta vez.
  2. Ativa cenários temáticos relevantes.
  3. Filtra informações expiradas (por exemplo, preferências de um ano atrás podem ser inválidas).
  4. Pesquisa iterativamente até que informações suficientes sejam reunidas.

Soluções comuns são como um mecanismo de busca que termina após uma pesquisa. O EverOS procura repetidamente de diferentes ângulos até encontrar informações suficientes.

铁锤人 - inline image

O EverOS alcançou uma precisão geral de 93,05% no benchmark de memória de longo prazo LoCoMo (usando GPT-4o-mini), superando a solução de comparação Zep (85.22%) em quase 8 pontos percentuais.

Depois de ler esta seção, você deve ter uma boa ideia dos sistemas de memória para Agentes de nível de produção. Mas como eles são implementados na engenharia real, e o que você pode fazer com eles?

Implementação Real de Produção

Vou continuar usando este projeto de código aberto para explicar por dois motivos: a API é aberta gratuitamente, e o repositório contém 20 casos reais — perfeito para discutir a implementação!!

API Aberta Gratuita

A API Cloud do EverOS é aberta gratuitamente.

铁锤人 - inline image

Três passos para começar:

  1. Abra everos.evermind.ai no seu navegador para se registrar; a página fornece uma chave API, salve-a.
  2. Instale o SDK via linha de comando: pip install everos
  3. Instancie o cliente em Python e comece a usá-lo.

O EverOS não é apenas gratuito para testar, mas também suporta o recurso recentemente popular de Auto-Evolução de Habilidades (Skill Self-Evolution)!!

Como usar a Auto-Evolução de Habilidades?

Quando um Agente executa tarefas semelhantes repetidamente, o EverOS destila automaticamente a experiência em habilidades reutilizáveis. Na próxima vez que uma tarefa semelhante aparecer, ele usa a habilidade diretamente em vez de começar do zero.

Usá-lo no código envolve encadear 3 APIs:

Dois pontos a serem observados:

  • Na primeira vez que você alimenta uma trajetória, ele gera apenas um caso (arquivo de uma única tarefa). As habilidades são agrupadas e destiladas somente após várias tarefas semelhantes.
  • Você deve usar o endpoint /memories/agent; o /memories comum não extrairá habilidades.

Se você não entendeu o recurso de Auto-Evolução de Habilidades, veja o diagrama abaixo:

铁锤人 - inline image

Mencionei brevemente o uso do código, mas como infraestrutura para Agentes, este projeto tem casos de uso reais extremamente valiosos.

E esses casos são todos de código aberto e prontos para aprendizado!!

20 Casos de Uso Reais

O README do repositório lista 20 casos de uso, aqui estão alguns:

  • MemoCare (Assistente de Memória para Alzheimer): Fornece uma memória externa que nunca esquece para pacientes com declínio cognitivo — este é um dos projetos de bem-estar público mais emocionantes.
  • Plugin Claude Code: Adiciona memória de longo prazo ao Claude Code, lembrando entre sessões.
  • Game of Thrones: Alimenta os enredos de GoT para o AI interpretar personagens que lembram quem são a longo prazo.
  • OpenHer: Namorada AI, companhia emocional + evolução da memória.
  • Computer-Use with Memory: Permite que o Agente controle um computador e lembre das experiências de cada operação.
  • Memory Graph Visualization: Visualiza o sistema de memória como um grafo.

A lista completa está no README em github.com/EverMind-AI/EverOS.

A propósito, aqui estão alguns plugins oficiais:

APIs não são suficientes, então o EverOS empacotou capacidades de memória em vários plugins prontos para uso:

  • Plugin Claude Code Plugin Claude Code: Adiciona memória de longo prazo ao Claude Code — salva automaticamente após cada resposta e recupera o contexto para cada pergunta, com um painel visual Memory Hub. Instale com um comando.
  • Plugin OpenClaw: Conecta o EverOS como um "slot de memória" para o OpenClaw — o Agente recupera automaticamente a memória relevante (tramas, perfis, casos, habilidades) antes de executar e salva a conversa e as chamadas de ferramenta depois.
  • Habilidade OpenClaw: Conecta as ferramentas de memória do EverOS ao OpenClaw / Claude Code como "habilidades," permitindo que o Agente chame a memória conforme necessário, em vez de tê-la permanentemente anexada.

Voltando às três perguntas do início:

O que é um sistema de memória? Como é o sistema de memória do OpenClaw? Como é uma solução de nível empresarial?

Você já deve ter as respostas agora.

O EverMind é um projeto excelente:

  1. O projeto inteiro é código aberto sob licença Apache 2.0, atualmente com mais de 4500+ estrelas.
  2. O EverMind tem fortes raízes acadêmicas e algorítmicas, publicando artigos constantemente; seu MSA anterior também era um conceito muito avançado.
  3. O EverMind é uma empresa AI Native da Shanda, com muitos recursos.

Se você está planejando começar a aprender sobre sistemas de memória para Agentes a partir deste projeto, sinta-se à vontade para dar uma estrela:

github.com/EverMind-AI/EverOS

Eles também têm novos produtos sendo lançados no final do mês, ansioso!!

Esta é minha primeira tentativa de explicar conceitos técnicos em um artigo. Para torná-lo compreensível para a maioria das pessoas, omiti muitos detalhes.

A tecnologia envolvida é complexa; sinta-se à vontade para apontar erros nos comentários para correção.

Se você gostou do meu artigo, pode salvá-lo, comentar, encaminhá-lo para amigos e me seguir.

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind

Mais padrões para decifrar

Artigos virais recentes

Explorar mais artigos virais