Supermemory ASMR：在 AI Agent 记忆领域实现 99% 的 SOTA

注意：这是一次特技表演。业内很多人一直在声称各种基准测试上的数字完全是不真实的。所以我们做了这件事，就是为了向你展示打破基准测试是多么容易。

https://x.com/DhravyaShah/status/2036243995500966260

Agent 记忆现在可能已经完全解决了。

几年后，数十亿个 Agent 将为每个用户实现高度个性化和专业化——不断学习和进化我们所做的一切。这就是我们多年来一直在研究 AI 记忆的原因。当我们最终完善它时，会发生什么？

几个月前，我们发布了第一份研究报告，显示 Supermemory 在 LongMemEval 上达到了约 85% 的成绩，这使我们领先于当时所有公开基准测试的记忆系统。今天，我们发布了一个新结果：在 LongMemEval_s 上达到约 99%。

事先要明确一点：这（目前）还不是我们主要生产环境中的 Supermemory 引擎。 相反，这篇博客介绍了一个全新的、高度实验性的 Agent 工作流，我们构建它是为了看看在不受核心生产环境限制的情况下，我们究竟能将记忆检索和推理的极限推到多远。几个月的研究让我们走到了这一步。

这就是我们实现这一目标的方法。介绍我们的新技术：ASMR（Agentic Search and Memory Retrieval，即 Agent 搜索与记忆检索）

这项技术的特点是：

非常容易实现
不需要向量数据库或嵌入，并且可以完全在内存中完成
这意味着它可以嵌入到其他系统中，甚至是机器人这样的设备中。

引言

LongMemEval 是最严格的公开长期记忆基准测试之一。与测试短上下文简单检索的基准不同，LongMemEval 旨在模拟真实生产环境的混乱：超过 11.5 万 token 的对话历史、相互矛盾的信息、跨多个会话的事件，以及需要时间推理的问题。

大多数记忆系统得分低的原因通常是检索问题，而不是推理问题。即使召回率很高，但如果检索结果中存在大量噪声，LLM 可能也难以利用这些信息。问题在于，首先如何只将正确的信息放入上下文窗口中，而更困难的是：如何判断检索到的事实是否已经过时，以及是否有更新的版本取代了它。

为了解决这个问题，我们摒弃了传统的 RAG，构建了一个多 Agent 编排的流水线。

设置与实验架构

标准的向量搜索总体上是不错的。然而，在处理密集的多会话时间数据这种细微差别时，它就失效了。语义相似度匹配无法可靠地区分旧事实和新修正。为了应对 LongMemEval 的复杂性，我们必须从头开始重新思考我们的数据摄取和检索流水线，用主动的 Agent 推理取代向量数学。

就像 ASMR 一样，这项技术简单且令人满意。

1. 并行编排与数据摄取（观察者 Agent）

我们没有对用户会话进行分块和嵌入，而是部署了一个 Agent 编排器，利用 3 个并行的读取（观察者）Agent（由 Gemini 2.0 Flash 驱动）。这些 Agent 并发地读取原始会话（例如，Agent 1 处理会话 1、3、5；Agent 2 处理会话 2、4、6）。

它们的目标是针对六个维度进行定向知识提取：个人信息、偏好、事件、时间数据、更新和助手信息。这些结构化的发现随后被原生存储，并映射到它们的源会话。

2. 主动 Agent 检索（搜索 Agent）

当一个问题到来时，我们不会查询向量数据库。相反，我们部署了 3 个并行的搜索 Agent。这些 Agent 主动读取并推理存储的发现，每个都有专门的关注点：

Agent 1： 搜索直接事实和明确陈述。
Agent 2： 查找相关上下文、社交线索和隐含信息。
Agent 3： 重建时间线和关系图谱。

编排器会汇总来自所有三个搜索 Agent 的发现，并提取逐字会话摘录以进行细节验证。这使得基于实际认知理解（而不仅仅是关键词或数学相似度）的智能检索成为可能。

3. Agent 编排的答案集成

一旦上下文组装完毕，单个提示词无法处理 LongMemEval 中种类繁多的问题。有些问题需要你推断细节，而另一些则需要你极其精确。我们试验了两种不同的 Agent 回答流程：

运行 1：8 变体集成（准确率 98.60%）

在我们的第一种方法中，我们将检索到的上下文路由到 8 个并行运行的高度专业化提示词变体中（例如，精确计数器、时间专家、深度上下文分析器）。每个变体独立评估上下文并生成答案。如果任何一个 8 个不同的推理路径成功找到了真实答案，该问题就被标记为正确。这种并行多判断方法使我们达到了惊人的 98.60% 总体准确率，完美覆盖了我们的盲点。

运行 2：12 变体决策森林（准确率 97.20%）

为了测试一个能够产生单一、权威答案（而不是依赖多个独立尝试）的系统，我们将架构扩展为 12 变体决策森林。

在这里，12 个高度专业化的 Agent（由 GPT-4o-mini 驱动）独立回答问题。然后，我们引入了一个 聚合器 LLM 作为最终判断者。聚合器使用多数投票、领域信任和冲突解决来综合 12 个答案。这种单一的共识模型也达到了极高的 97.20% 准确率。

结果

这种实验性架构的性能从根本上改变了长期 AI 记忆的可能性。要理解这一成就的规模，以下是我们的实验性 Agent 流程与我们原始生产引擎以及整个行业相比的表现：

这个系统对 Agent 延迟的影响也没有你想象的那么大——不过这是我们一直在努力改进的一点。

我们学到了什么以及下一步计划

构建一个在生产级基准测试上达到约 99% 准确率的系统，带来了一些关键的工程见解：

Agent 检索优于向量搜索： 放弃向量嵌入，改用主动搜索 Agent 是最大的突破。主动搜索上下文的 Agent 消除了语义相似度陷阱，而传统 RAG 正是因为这个陷阱而在处理时间变化和更新时失败。
并行处理至关重要： 将数据摄取和检索工作负载分配给多个专用 Agent（3 个读取，3 个搜索）极大地提高了事实提取的速度和粒度。这也有助于防止冲突，因为每个 Agent 在提取时都可以有专门的关注点。
专业化优于通用化： 将上下文路由到专门的专家 Agent（如计数器或细节提取器）远远优于任何单一的通用提示词。

由于这是一个实验性的沙盒环境，而不是我们核心的 Supermemory 引擎，我们希望 AI 社区能够从中学习并在此基础上进行构建。

我们很快将开源这个实验性 Agent 流程的完整代码。 记忆是一个不断演变的挑战，虽然这项研究推高了可能性的上限，但我们已经在研究如何将这些纯 Agent 检索技术应用到我们的核心生产环境中。

正好在 11 天后（4 月初），我们将发布并开源关于这个新 Agent 记忆系统的所有内容。它将以公开的方式构建，供大家见证。我们玩得很开心。

查看我们的 GitHub https://github.com/supermemoryai，并密切关注那里的发布 👀

Agent 记忆现在（可能）是一个已解决的问题了？