Como os Agentes de IA se lembram? Um guia detalhado dos princípios à prática

@lxfater
CHINÊShá 2 meses · 13/05/2026
388K
562
168
37
1.1K

TL;DR

Este guia explica a mecânica da memória de Agentes de IA, comparando o gerenciamento básico de sessões com estruturas corporativas avançadas, como o EverOS, que utilizam consolidação semântica e destilação de habilidades.

Recentemente, a memória de longo prazo para Agentes se tornou muito popular, e todo mundo está falando sobre sistemas de memória.

Mas quando você olha para essas explicações, a maioria delas simplesmente joga um monte de termos: bancos de dados vetoriais, RAG, janelas de contexto, compressão, memória episódica...

Depois de ler, você ainda não consegue explicar exatamente como funciona, consegue?

Não é culpa sua; a maioria dos artigos assume que você já tem uma base.

No entanto, os sistemas de memória para Agentes são atualmente o tópico mais quente em entrevistas. Se você não entende, fica em desvantagem tanto no trabalho quanto nas entrevistas.

Então, neste post, vou adotar uma abordagem diferente, começando do básico sem acumular jargões! Vou tentar ao máximo tornar compreensível para todos!!

Garanto que depois de ler, você conseguirá responder a estas três perguntas sozinho:

O que é um sistema de memória?

Como entendemos o sistema de memória do OpenClaw?

Como é uma solução de nível empresarial? Escolhi o EverOS (github.com/EverMind-AI/EverOS

铁锤人 - inline image

Este artigo é bastante longo e levei vários dias para escrevê-lo. Se você tem amigos interessados em memória de Agentes, pode marcá-lo e encaminhá-lo para eles depois.

Conhecimento Básico Sobre Sistemas de Memória de Agentes

Esta seção aborda principalmente como os Agentes mantêm a memória dentro de uma única sessão e entre diferentes sessões. Se você já entende isso, fique à vontade para pular.

Primeiro, não há memória entre duas chamadas de API para um modelo grande. O que isso significa?

Por exemplo: Se você diz que gosta de comer laranjas na primeira chamada, mas não anexa "Eu gosto de comer laranjas" ao prompt na segunda chamada, o modelo não terá memória da sua preferência.

Então, como um Agente mantém essa memória durante uma conversa?

Primeiro, toda vez que você pergunta algo, o sistema subjacente envia todo o seu histórico de chat anterior. O modelo vê isso, garantindo a memória de curto prazo.

Mas quando o histórico de chat fica tão longo que excede a janela de contexto máxima do modelo, ele comprime o histórico. Ele resume o histórico atual da conversa e o coloca de volta no prompt, criando espaço para continuar o chat.

Este é o princípio de como um modelo mantém a memória em uma única conversa longa. Se você está um pouco confuso, veja o diagrama abaixo:

铁锤人 - inline image

Agora você sabe como a memória é mantida em uma única sessão, mas como é mantida entre diferentes sessões de chat?

É aí que entra o sistema de memória de longo prazo!!

O que ele faz é armazenar informações importantes em um espaço de armazenamento quando seu contexto é comprimido ou quando você solicita lembrar algo.

Então, quando você inicia uma nova conversa, ele extrai e adiciona as informações relevantes ao prompt no momento apropriado.

Ao "trocar o velho pelo novo", cria a ilusão de lembrar muitas coisas. Isso é semelhante à memória de trabalho humana e à memória de longo prazo.

铁锤人 - inline image

Ok, com esse conhecimento básico de memória, podemos avançar para entender o que é um sistema de memória.

Abaixo, darei um quadro conceitual. Se você terminar de ler, garanto que terá uma compreensão básica de qualquer solução de sistema de memória.

O Sistema de Memória

Existem pelo menos dezenas de soluções que afirmam dar memória de longo prazo aos Agentes. Como estudamos tantas?

A seguir, vou detalhar um artigo para dar a você uma compreensão básica da memória de longo prazo de Agentes, e depois comparar as diferenças entre o OpenClaw e outros frameworks de memória para melhor compreensão.

O Google publicou um artigo em novembro de 2025 intitulado "Context Engineering, Sessions and Memory."

Neste artigo, eles seguem os métodos da ciência cognitiva de meio século atrás, dividindo a memória do Agente em três categorias:

  • Memória Episódica: O que aconteceu ontem, o que foi discutido da última vez.
  • Memória Semântica: Qual é o seu nome, do que você gosta, qual é a sua identidade.
  • Memória Procedural: Como completar uma tarefa, qual é o processo.

Juntas, esses três tipos de memória constituem a memória do Agente.

铁锤人 - inline image

Mas isso é apenas metade da história; a outra metade é sobre como manter e usar a memória.

Assim como os humanos, os Agentes não podem lembrar de tudo. Portanto, um sistema de memória precisa de um método confiável para extrair informações importantes do histórico da conversa e depois salvá-las.

Chamo essa etapa de Extração.

Além disso, precisamos organizar e mesclar memórias.

Por exemplo:

Há três meses, eu disse que estava em Dali, mas depois me mudei para Chengdu. Se essa informação não for mesclada, a memória conterá entradas contraditórias.

A abordagem correta é atualizar a memória para "O usuário está em Chengdu" depois que eu me mudo.

Chamo essa etapa de Atualização.

Há também a etapa de Recuperação, que envolve muitos métodos: busca por palavras-chave, busca semântica, busca híbrida ou uso de modelos grandes para recuperar.

Então, para entender um sistema de memória, você só precisa entender esses dois aspectos:

  1. Quantas categorias de memória existem e o que cada uma armazena?
  2. Como a memória é extraída, atualizada e recuperada?
铁锤人 - inline image

Agora, usando este framework, vamos descobrir como a memória de longo prazo do OpenClaw é implementada.

Quantas categorias de memória o OpenClaw tem e o que cada uma armazena?

Sua memória é dividida nos seguintes três tipos:

  1. memory.md (Memória): Pertence à memória semântica; armazena sua identidade, preferências e fatos estáveis.
  1. daily logs: Pertence à memória episódica; registra o que aconteceu cada dia, organizado por data. Apenas adiciona novas entradas e nunca exclui.
  1. session snapshots: Pertence à camada episódica; quando você usa os comandos /new ou /reset para iniciar uma nova sessão, ele resume as últimas 15 mensagens "significativas" da conversa antiga conversa e as salva como um arquivo markdown.
铁锤人 - inline image

Como são feitas a extração, atualização e recuperação?

A extração ocorre em três situações:

  1. Quando uma conversa está prestes a ser comprimida: Informações valiosas são escritas nos daily logs.
  2. Quando você usa /new ou /reset para iniciar uma nova sessão: Informações valiosas são salvas nos session snapshots.
  3. Quando o usuário solicita lembrar algo: O sistema decide em qual tipo de memória armazená-lo.

A recuperação ocorre em duas situações:

  1. Ao iniciar uma nova conversa: memory.md é automaticamente injetado no prompt, e também lê os daily logs de hoje e de ontem para contexto recente.
  2. Quando o OpenClaw acha necessário verificar a memória: Ele chama a busca de memória, encontra a localização da memória via busca híbrida (palavras-chave + vetores) e depois lê o conteúdo do arquivo via memory get.

Quando ocorre a atualização? Meu entendimento pessoal é que ocorre durante a extração, ao decidir o que lembrar.

Se você ainda não entendeu, veja o diagramaixo:

铁锤人 - inline image

Agora você tem algum entendimento sobre sistemas de memória, mas, honestamente, o sistema do OpenClaw tem vários problemas:

  1. Consome muitos tokens.
  2. Se o Markdown for perdido, a memória desaparece.
  3. Muitas vezes esquece coisas.

No entanto, sistemas de memória verdadeiramente de nível empresarial têm muitas otimizações para garantir estabilidade. A tecnologia por trás deles vale a pena ser entendida por quem ama tecnologia.

A seguir, analisarei sistemas de memória de Agentes de nível empresarial!!

Sistemas de Memória de Agentes de Nível Empresarial

Na era da IA, todo programador deveria entender a tecnologia por trás dos sistemas de memória de Agentes de nível empresarial; caso contrário, perderá sua vantagem competitiva.

Por quê?

Porque os modelos grandes continuarão a consumir nosso trabalho de programação. A única escolha é construir sistemas de suporte para eles.

Para facilitar a explicação, vou escolher uma solução de código aberto chamada EverOS para detalhar.

Se você está planejando começar a aprender sistemas de memória de Agentes a partir deste projeto, fique à vontade para dar uma estrela:

github.com/EverMind-AI/EverOS

Como eu disse antes, para entender um sistema de memória, você só precisa responder a duas perguntas.

Como o EverOS as responde?

Pergunta 1: Como a memória é categorizada?

O framework geral tem 3 tipos, mas o EverOS detalha cada um, como mostrado abaixo:

铁锤人 - inline image
  1. Memória Semântica: Memória de longo prazo de quem você é, dividida em duas camadas:
  2. Características Estáveis: Você é notívago, programador, mora em Pequim — coisas que não mudam por muito tempo.
  3. Estados Temporários: Você ficou acordado até tarde hoje, estava ocupado esta semana, estava resfriado na semana passada.
  1. Memória Episódica: Dividida em três tipos:
  2. Episódio: Um resumo condensado de uma conversa ou tarefa, não um diário. Exemplo: O usuário perguntou como implantar um modelo, ficou preso em variáveis de ambiente e gastou 30 minutos nisso.
  3. EventLog: Extrai fatos-chave das conversas, cada um com um carimbo de data/hora. Exemplo: 2026-05-10 Usuário comprou um Mac mini, 2026-05-12 Usuário vinculou o GitHub.
  4. Foresight: "Próximos passos" relacionados ao tempo — coisas que você disse que faria ou que ele infere que você se envolverá depois, com prazos de validade para lembretes. Exemplo: Enviar a proposta antes da próxima sexta-feira.

1.1. Memória Procedural: Dividida em dois tipos:

  1. Caso do Agente: Após concluir uma tarefa, registra "o que foi pretendido + ações passo a passo + uma pontuação de qualidade." Exemplo: Enviar um e-mail — ele verifica contatos, rascunha, pede confirmação, depois envia — todo esse conjunto é arquivado com uma pontuação de qualidade.
  2. Habilidade do Agente (Habilidade Destilada): Depois de fazer tarefas semelhantes várias vezes, ele automaticamente destila uma abordagem geral desses arquivos, com uma pontuação de maturidade. Quanto mais vezes feito, mais confiável se torna. Exemplo: Após 5 tarefas de e-mail, ele aprende a verificar se o destinatário é uma pessoa-chave antes de decidir um tom formal ou casual.

Como você pode ver, o EverOS divide as 3 categorias originais em 6 tipos, permitindo armazenamento mais preciso e memória mais eficaz.

Além disso, é mais semelhante à memória humana — prevê o futuro e resume/refina habilidades.

Pergunta 2: Como são feitas a extração, atualização e recuperação?

Como a memória é extraída?

O EverOS julga automaticamente se "este segmento terminou." Uma vez terminado, ele o corta e o empacota em uma unidade de memória.

Cada unidade contém 4 coisas:

  • Enredo: O que foi discutido e feito — um resumo condensado, não literal.
  • Fatos-chave: Quais fatos dentro merecem ser anotados separadamente.
  • Foresight: Coisas que você disse que faria ou que ele infere que você fará, com prazos de validade para lembretes.
  • Tags de Contexto: Quando, onde, quão crível e qual era a emoção no momento.

Você apenas conversa; ele cuida dos detalhes da segmentação.

铁锤人 - inline image

Como a memória é atualizada?

Por exemplo:

Há um mês, você disse ao AI: Estou planejando começar a malhar. Duas semanas depois, você disse: Estive ocupado, não fui à academia. Hoje você diz: Esquece, não vou malhar.

Soluções comuns empilham todas as três no log. Qualquer uma que o modelo recupera é o que ele considera como fato. Mas na realidade, a resposta deveria ser a mais recente.

O EverOS depende de "Consolidação Semântica," que faz três coisas:

  • Determina automaticamente qual é a mais recente (parou de malhar).
  • Mescla duplicatas ou coisas referentes ao mesmo evento.
  • Mantém um perfil do usuário, separando preferências estáveis de estados temporários (oficialmente chamado de Evolução de Perfil).

Detalhes são mostrados abaixo:

铁锤人 - inline image

Como a memória é recuperada?

O EverOS oferece 4 métodos de recuperação para escolher com base no cenário:

  • Palavras-chave: Correspondência exata, adequado para nomes ou IDs específicos.
  • Busca por Vetores: Correspondência semântica — palavras diferentes com o mesmo significado podem corresponder.
  • Híbrido: Palavras-chave + vetores juntos, depois filtrados por um modelo de reclassificação — o padrão recomendado.
  • Agentic: Usado para perguntas complexas de múltiplas partes; o LLM julga o que e como buscar, iterando até encontrar (usado quando o híbrido não é suficiente).

Mas os 4 métodos não são o chave; a chave é a lógica de recuperação.

Soluções comuns são passivas — você dá palavras-chave, ele retorna documentos correspondentes, e pronto.

O EverOS reconstrói ativamente o contexto:

  1. Analisa o que você quer fazer desta vez.
  2. Ativa cenários temáticos relevantes.
  3. Filtra informações expiradas (por exemplo, preferências de um ano atrás podem ser inválidas).
  4. Busca iterativamente até reunir informações suficientes.

Soluções comuns são como um mecanismo de busca que termina após uma busca. O EverOS repetidamente de diferentes ângulos até encontrar informações suficientes.

铁锤人 - inline image

O EverOS alcançou uma precisão geral de 93,05% no benchmark de memória de longo prazo LoCoMo (usando GPT-4o-mini), superando a solução de comparação Zep (85,22%) em quase 8 pontos percentuais.

Depois de ler esta seção, você deve ter uma boa ideia dos sistemas de memória de Agentes de produção. Mas como eles se concretizam na engenharia real, e o que você pode fazer com eles?

Implementação Real de Produção

Vou continuar usando este projeto de código aberto para explicar por dois motivos: a API é aberta gratuitamente, e o repositório contém 20 casos reais — perfeito para discutir implementação!!

API Aberta Gratuita

A API Cloud do EverOS é aberta gratuita.

铁锤人 - inline image

Três passos para começar:

  1. Abra everos.evermind.ai no seu navegador para se registrar; a página fornece uma Chave de API, salve-a.
  2. Instale o SDK via linha de comando: pip install everos
  3. Instancie o cliente em Python e comece a usá-lo.

O EverOS não é apenas gratuito para testar, mas também suporta o recurso recentemente popular de Auto-Evolução de Habilidades!!

Como usar a Auto-Evolução de Habilidades?

Quando um Agente executa repetidamente tarefas semelhantes, o EverOS automaticamente destila a experiência em habilidades reutilizáveis. Na próxima vez que uma tarefa semelhante surgir, ele usa a habilidade diretamente em vez de começar do zero.

Usar no código envolve encadear 3 APIs:

Dois pontos a serem observados:

  • A primeira vez que você alimenta uma trajetória, ele gera apenas um caso (arquivo de uma única tarefa). As habilidades são agrupadas e destiladas somente após várias tarefas semelhantes.
  • Você deve usar o endpoint /memories/agent; o /memories comum não extrairá habilidades.

Se você não entendeu o recurso de Auto-Evolução de Habilidades, veja o diagrama abaixo:

铁锤人 - inline image

Mencionei brevemente o uso do código, mas como infraestrutura de Agente, este projeto tem casos de uso reais extremamente valiosos.

E esses casos são todos de código aberto e prontos para aprendizado!!

20 Casos de Uso Reais

O README do repositório lista 20 casos de uso, aqui estão alguns:

  • MemoCare (Assistente de Memória para Alzheimer): Fornece uma memória externa que nunca esquece para pacientes com declínio cognitivo — este é um dos projetos de bem mais comoventes.
  • Plugin Claude Code: Adiciona memória de longo prazo ao Claude Code, lembrando entre sessões.
  • Jogo dos Tronos: Alimenta as tramas de GoT para o AI interpretar personagens que lembram quem são a longo prazo.
  • OpenHer: Namorada AI, companhia emocional + evolução de memória.
  • Computer-Use with Memory: Permite que o Agente controle um computador e lembre das experiências de cada operação.
  • Visualização de Grafo de Memória: Visualiza o sistema de memória como um grafo.

A lista completa está no README do repositório github.com/EverMind-AI/EverOS.

A propósito, aqui estão alguns plugins oficiais:

APIs não são suficientes, então o EverOS empacotou capacidades de memória em vários plugins prontos para uso:

  • Plugin Claude Code: Adiciona memória de longo prazo ao Claude Code — salva automaticamente após cada resposta e recupera contexto para cada pergunta, com um painel visual Memory Hub. Instale com um comando.
  • Plugin OpenClaw: Conecta o EverOS como um "slot de memória" para o OpenClaw — o Agente automaticamente recupera memória relevante (enredos, perfis, casos, habilidades) antes de executar e salva a conversa e as chamadas de ferramentas depois.
  • Habilidade OpenClaw: Conecta as ferramentas de memória do EverOS ao OpenClaw / Claude Code como "habilidades," permitindo que o Agente chame a memória conforme necessário, em vez de tê-la permanentemente anexada.

Voltando às três perguntas do início:

O que é um sistema de memória? Como é o sistema de memória do OpenClaw? Como é uma solução de nível empresarial?

Você já deve ter as respostas agora.

O EverMind é um projeto excelente:

  1. O projeto inteiro é código aberto sob Apache 2.0, atualmente com mais de 4500 estrelas.
  2. A EverMind tem fortes raízes acadêmicas e algorítmicas, publicando constantemente artigos; seu MSA anterior também era um conceito muito avançado.
  3. A EverMind é uma empresa AI Native da Shanda, com muitos recursos.

Se você está planejando começar a aprender sistemas de memória de Agentes a partir deste projeto, fique à vontade para dar uma estrela:

github.com/EverMind-AI/EverOS

Eles também têm novos produtos sendo lançados no final do mês, ansioso por isso!!

Esta é minha primeira tentativa de explicar conceitos técnicos em um artigo. Para torná-lo compreensível para a maioria das pessoas, omiti muitos detalhes.

A tecnologia envolvida é complexa; fique à vontade para apontar erros nos comentários para correção.

Se você gostou do meu artigo, pode marcá-lo, comentar, encaminhá-lo para amigos e me seguir.

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind

Mais padrões para decifrar

Artigos virais recentes

Explorar mais artigos virais