Supermemory ASMR: Alcançando 99% de SOTA na Memória de Agentes de IA

Nota: Isso foi uma provocação. Muitos na indústria insistem em divulgar números em benchmarks que são completamente falsos. Então foi isso que fizemos, para mostrar como é fácil quebrar o benchmark.

https://x.com/DhravyaShah/status/2036243995500966260

A memória de agentes pode estar completamente resolvida agora.

Em alguns anos, BILHÕES de agentes serão altamente personalizados e especializados por usuário – aprendendo e evoluindo constantemente com tudo o que fazemos. É por isso que pesquisamos sobre memória de IA há anos. O que acontece quando finalmente a aperfeiçoamos?

Há alguns meses, publicamos nosso primeiro relatório de pesquisa mostrando o Supermemory alcançando ~85% no LongMemEval-s, um resultado que nos colocou à frente de todos os sistemas de memória com benchmark público na época. Hoje, estamos publicando um novo resultado: ~99% no LongMemEval_s.

Para ser absolutamente claro desde já: isso ainda não está em nosso mecanismo principal de produção do Supermemory. Em vez disso, este blog aborda um novo fluxo agentivo altamente experimental que construímos para ver exatamente até onde poderíamos levar os limites absolutos da recuperação e raciocínio de memória, independentemente de nossas restrições principais de produção. Alguns meses de pesquisa nos trouxeram até aqui.

Foi assim que chegamos lá. Apresentando nossa nova técnica: ASMR (Agentic Search and Memory Retrieval - Busca Agentiva e Recuperação de Memória)

Esta técnica é:

Muito fácil de implementar
Não requer um Banco de Dados Vetorial ou embeddings e pode ser feita completamente em memória
Isso significa que pode ser incorporada a outros sistemas, até mesmo coisas como robôs.

Introdução

LongMemEval é um dos benchmarks públicos mais rigorosos para memória de longo prazo. Diferente de benchmarks que testam recuperação simples em contextos curtos, o LongMemEval foi projetado para simular o caos de ambientes de produção reais: históricos de conversas com mais de 115 mil tokens, informações contraditórias, eventos distribuídos em várias sessões e perguntas que exigem raciocínio sobre tempo.

O motivo pelo qual a maioria dos sistemas de memória tem pontuação baixa geralmente é a recuperação – não o raciocínio. Mesmo quando a recuperação é alta, se houver muito ruído nela, o LLM pode ter dificuldade em usá-la. O problema é conseguir colocar apenas a informação certa no contexto em primeiro lugar, e ainda mais difícil: saber quando um fato recuperado está desatualizado e uma versão mais nova o substitui.

Para resolver isso, nos afastamos do RAG tradicional e construímos um pipeline orquestrado com múltiplos agentes.

Configuração e Arquitetura Experimental

A busca vetorial padrão é boa em geral. No entanto, ela falha ao lidar com as nuances de dados temporais densos e de múltiplas sessões. A correspondência de similaridade semântica não consegue distinguir de forma confiável entre um fato antigo e uma nova correção. Para enfrentar as complexidades do LongMemEval, tivemos que repensar nosso pipeline de ingestão e recuperação desde o início, substituindo a matemática vetorial pelo raciocínio agentivo ativo.

Assim como o ASMR, esta técnica é simples e satisfatória.

1. Orquestração e Ingestão Paralela (Agentes Observadores)

Em vez de dividir em chunks e incorporar sessões de usuário, implantamos um orquestrador de agentes utilizando 3 agentes leitores (observadores) paralelos (alimentados pelo Gemini 2.0 Flash). Esses agentes leem as sessões brutas simultaneamente (ex.: Agente 1 pega as sessões 1, 3, 5; Agente 2 pega as 2, 4, 6).

O objetivo deles é a extração direcionada de conhecimento em seis vetores: Informações Pessoais, Preferências, Eventos, Dados Temporais, Atualizações e Informações do Assistente. Essas descobertas estruturadas são então armazenadas nativamente e mapeadas para suas sessões de origem.

2. Recuperação Agentiva Ativa (Agentes de Busca)

Quando uma pergunta chega, não consultamos um banco de dados vetorial. Em vez disso, implantamos 3 agentes de busca paralelos. Esses agentes leem e raciocinam ativamente sobre as descobertas armazenadas, cada um com um foco especializado:

Agente 1: Busca por fatos diretos e declarações explícitas.
Agente 2: Procura por contexto relacionado, dicas sociais e implicações.
Agente 3: Reconstrói linhas do tempo temporais e mapas de relacionamento.

O orquestrador compila as descobertas dos três agentes de busca, extraindo trechos literais de sessão para verificação de detalhes. Isso permite uma recuperação inteligente baseada na compreensão cognitiva real, em vez de apenas similaridade de palavras-chave ou matemática.

3. Os Conjuntos de Resposta Orquestrados por Agentes

Uma vez que o contexto é montado, um único prompt não consegue lidar com a enorme variedade de tipos de pergunta no LongMemEval. Algumas perguntas exigem que você infira detalhes, enquanto outras exigem que você seja extremamente específico. Experimentamos dois fluxos de resposta agentivos distintos:

Execução 1: O Conjunto de 8 Variantes (98,60% de Precisão)

Em nossa primeira abordagem, roteamos o contexto recuperado através de 8 variantes de prompt altamente especializadas rodando em paralelo (ex.: um Contador Preciso, um Especialista em Tempo, um Mergulho Profundo no Contexto). Cada variante avaliou o contexto de forma independente e gerou uma resposta. Se qualquer um dos 8 caminhos de raciocínio distintos chegasse com sucesso à verdade absoluta, a pergunta era marcada como correta. Essa abordagem de múltiplos julgamentos paralelos nos permitiu atingir uma impressionante precisão geral de 98,60%, cobrindo perfeitamente nossos pontos cegos.

Execução 2: A Floresta de Decisão de 12 Variantes (97,20% de Precisão)

Para testar um sistema que produz uma única resposta autoritativa, em vez de depender de múltiplas tentativas independentes, expandimos nossa arquitetura para uma Floresta de Decisão de 12 variantes.

Aqui, 12 agentes altamente especializados (alimentados pelo GPT-4o-mini) responderam ao prompt de forma independente. Em seguida, introduzimos um LLM Agregador para atuar como o juiz final. O Agregador sintetizou as 12 respostas usando votação majoritária, confiança de domínio e resolução de conflitos. Este modelo de consenso singular também alcançou uma incrivelmente alta precisão de 97,20%.

Resultados

O desempenho desta arquitetura experimental muda fundamentalmente o que é possível na memória de IA de longo prazo. Para entender a escala desta conquista, veja como nossos fluxos agentivos experimentais se comparam tanto ao nosso mecanismo de produção original quanto à indústria em geral:

Este sistema também não afeta a latência do agente tanto quanto se poderia esperar – no entanto, este é um ponto no qual estamos constantemente trabalhando.

O que aprendemos e o que vem a seguir

Construir um sistema que atinge ~99% de precisão em um benchmark de nível de produção gerou algumas percepções críticas de engenharia:

Recuperação Agentiva Supera a Busca Vetorial: Abandonar os embeddings vetoriais por agentes de busca ativos foi o maior avanço. Agentes buscando ativamente por contexto eliminaram a armadilha da similaridade semântica que faz o RAG tradicional falhar em mudanças e atualizações temporais.
Processamento Paralelo é Crítico: Dividir as cargas de trabalho de ingestão e recuperação entre múltiplos agentes dedicados (3 leitores, 3 buscadores) melhorou drasticamente tanto a velocidade quanto a granularidade da extração de fatos. Também ajudou a prevenir conflitos, pois cada agente pôde ter um foco especializado durante a extração.
Especialização Supera Generalização: Roteamento de contexto através de agentes especialistas dedicados (como um Contador ou um Extrator de Detalhes) supera em muito qualquer único prompt mestre.

Como este foi um ambiente experimental, e não nosso mecanismo principal Supermemory, queremos que a comunidade de IA possa aprender e construir sobre esta arquitetura.

Em breve, abriremos o código-fonte completo para este fluxo agentivo experimental. A memória é um desafio em constante evolução, e embora esta pesquisa eleve o teto do que é possível, já estamos olhando como traduzir essas técnicas de recuperação puramente agentivas para nossos ambientes de produção principais.

Em exatamente 11 dias (início de abril), estaremos publicando e abrindo o código-fonte de tudo sobre este novo sistema de memória de agente. Será construído em público, um espetáculo para todos vocês verem. Estamos nos divertindo.

Confira nosso github https://github.com/supermemoryai e fique de olho lá para um lançamento 👀

A memória de agentes agora é (provavelmente) um problema resolvido?

Quebramos a fronteira na memória de agentes: Apresentamos o sistema de memória SOTA de ~99%.

Introdução

Configuração e Arquitetura Experimental

Resultados

O que aprendemos e o que vem a seguir

Turn one viral article into a full content workflow

Artigos virais recentes

Como os engenheiros da Anthropic realmente fazem prompts para o Fable 5

A Grande Queda

Gênios não abrem o Fable 5: Como finalizar seu trabalho usando apenas o Claude Sonnet 5

Apresentando o OpenWiki, um agente de código aberto para documentação de repositórios

Binance ultrapassa US$ 1 bilhão em ativos sob gestão para negociação de ações em 30 dias

PorTAL: Adaptadores de Tarefas Portáteis para LLMs