注意:这是一次特技表演。业内很多人一直在声称各种基准测试上的数字完全是不真实的。所以我们做了这件事,就是为了向你展示打破基准测试是多么容易。
https://x.com/DhravyaShah/status/2036243995500966260
Agent 记忆现在可能已经完全解决了。
几年后,数十亿个 Agent 将为每个用户实现高度个性化和专业化——不断学习和进化我们所做的一切。这就是我们多年来一直在研究 AI 记忆的原因。当我们最终完善它时,会发生什么?
几个月前,我们发布了第一份研究报告,显示 Supermemory 在 LongMemEval 上达到了约 85% 的成绩,这使我们领先于当时所有公开基准测试的记忆系统。今天,我们发布了一个新结果:在 LongMemEval_s 上达到约 99%。
事先要明确一点:这(目前)还不是我们主要生产环境中的 Supermemory 引擎。 相反,这篇博客介绍了一个全新的、高度实验性的 Agent 工作流,我们构建它是为了看看在不受核心生产环境限制的情况下,我们究竟能将记忆检索和推理的极限推到多远。几个月的研究让我们走到了这一步。
这就是我们实现这一目标的方法。介绍我们的新技术:ASMR(Agentic Search and Memory Retrieval,即 Agent 搜索与记忆检索)
这项技术的特点是:
- 非常容易实现
- 不需要向量数据库或嵌入,并且可以完全在内存中完成
- 这意味着它可以嵌入到其他系统中,甚至是机器人这样的设备中。
引言
LongMemEval 是最严格的公开长期记忆基准测试之一。与测试短上下文简单检索的基准不同,LongMemEval 旨在模拟真实生产环境的混乱:超过 11.5 万 token 的对话历史、相互矛盾的信息、跨多个会话的事件,以及需要时间推理的问题。
大多数记忆系统得分低的原因通常是检索问题,而不是推理问题。即使召回率很高,但如果检索结果中存在大量噪声,LLM 可能也难以利用这些信息。问题在于,首先如何只将正确的信息放入上下文窗口中,而更困难的是:如何判断检索到的事实是否已经过时,以及是否有更新的版本取代了它。
为了解决这个问题,我们摒弃了传统的 RAG,构建了一个多 Agent 编排的流水线。
设置与实验架构
标准的向量搜索总体上是不错的。然而,在处理密集的多会话时间数据这种细微差别时,它就失效了。语义相似度匹配无法可靠地区分旧事实和新修正。为了应对 LongMemEval 的复杂性,我们必须从头开始重新思考我们的数据摄取和检索流水线,用主动的 Agent 推理取代向量数学。
就像 ASMR 一样,这项技术简单且令人满意。
1. 并行编排与数据摄取(观察者 Agent)
我们没有对用户会话进行分块和嵌入,而是部署了一个 Agent 编排器,利用 3 个并行的读取(观察者)Agent(由 Gemini 2.0 Flash 驱动)。这些 Agent 并发地读取原始会话(例如,Agent 1 处理会话 1、3、5;Agent 2 处理会话 2、4、6)。
它们的目标是针对六个维度进行定向知识提取:个人信息、偏好、事件、时间数据、更新和助手信息。这些结构化的发现随后被原生存储,并映射到它们的源会话。
2. 主动 Agent 检索(搜索 Agent)
当一个问题到来时,我们不会查询向量数据库。相反,我们部署了 3 个并行的搜索 Agent。这些 Agent 主动读取并推理存储的发现,每个都有专门的关注点:
- Agent 1: 搜索直接事实和明确陈述。
- Agent 2: 查找相关上下文、社交线索和隐含信息。
- Agent 3: 重建时间线和关系图谱。
编排器会汇总来自所有三个搜索 Agent 的发现,并提取逐字会话摘录以进行细节验证。这使得基于实际认知理解(而不仅仅是关键词或数学相似度)的智能检索成为可能。
3. Agent 编排的答案集成
一旦上下文组装完毕,单个提示词无法处理 LongMemEval 中种类繁多的问题。有些问题需要你推断细节,而另一些则需要你极其精确。我们试验了两种不同的 Agent 回答流程:
运行 1:8 变体集成(准确率 98.60%)
在我们的第一种方法中,我们将检索到的上下文路由到 8 个并行运行的高度专业化提示词变体中(例如,精确计数器、时间专家、深度上下文分析器)。每个变体独立评估上下文并生成答案。如果 任何 一个 8 个不同的推理路径成功找到了真实答案,该问题就被标记为正确。这种并行多判断方法使我们达到了惊人的 98.60% 总体准确率,完美覆盖了我们的盲点。
运行 2:12 变体决策森林(准确率 97.20%)
为了测试一个能够产生单一、权威答案(而不是依赖多个独立尝试)的系统,我们将架构扩展为 12 变体决策森林。
在这里,12 个高度专业化的 Agent(由 GPT-4o-mini 驱动)独立回答问题。然后,我们引入了一个 聚合器 LLM 作为最终判断者。聚合器使用多数投票、领域信任和冲突解决来综合 12 个答案。这种单一的共识模型也达到了极高的 97.20% 准确率。

结果
这种实验性架构的性能从根本上改变了长期 AI 记忆的可能性。要理解这一成就的规模,以下是我们的实验性 Agent 流程与我们原始生产引擎以及整个行业相比的表现:

这个系统对 Agent 延迟的影响也没有你想象的那么大——不过这是我们一直在努力改进的一点。

我们学到了什么以及下一步计划
构建一个在生产级基准测试上达到约 99% 准确率的系统,带来了一些关键的工程见解:
- Agent 检索优于向量搜索: 放弃向量嵌入,改用主动搜索 Agent 是最大的突破。主动搜索上下文的 Agent 消除了语义相似度陷阱,而传统 RAG 正是因为这个陷阱而在处理时间变化和更新时失败。
- 并行处理至关重要: 将数据摄取和检索工作负载分配给多个专用 Agent(3 个读取,3 个搜索)极大地提高了事实提取的速度和粒度。这也有助于防止冲突,因为每个 Agent 在提取时都可以有专门的关注点。
- 专业化优于通用化: 将上下文路由到专门的专家 Agent(如计数器或细节提取器)远远优于任何单一的通用提示词。
由于这是一个实验性的沙盒环境,而不是我们核心的 Supermemory 引擎,我们希望 AI 社区能够从中学习并在此基础上进行构建。
我们很快将开源这个实验性 Agent 流程的完整代码。 记忆是一个不断演变的挑战,虽然这项研究推高了可能性的上限,但我们已经在研究如何将这些纯 Agent 检索技术应用到我们的核心生产环境中。
正好在 11 天后(4 月初),我们将发布并开源关于这个新 Agent 记忆系统的所有内容。它将以公开的方式构建,供大家见证。我们玩得很开心。
查看我们的 GitHub https://github.com/supermemoryai,并密切关注那里的发布 👀
Agent 记忆现在(可能)是一个已解决的问题了?





