我们在 Agent 记忆领域实现了突破:推出准确率达 99% 的 SOTA 记忆系统。

@DhravyaShah
英语3个月前 · 2026年3月22日
2.6M
3.9K
412
260
8.4K

TL;DR

Dhravya Shah 推出了 ASMR,这是一种实验性的 Agent 工作流,通过使用并行 LLM Agents 代替向量数据库,在记忆基准测试中实现了近乎完美的成绩。

注意:这是一次特技表演。业内很多人一直在声称各种基准测试上的数字完全是不真实的。所以我们做了这件事,就是为了向你展示打破基准测试是多么容易。

https://x.com/DhravyaShah/status/2036243995500966260

Agent 记忆现在可能已经完全解决了。

几年后,数十亿个 Agent 将为每个用户实现高度个性化和专业化——不断学习和进化我们所做的一切。这就是我们多年来一直在研究 AI 记忆的原因。当我们最终完善它时,会发生什么?

几个月前,我们发布了第一份研究报告,显示 Supermemory 在 LongMemEval 上达到了约 85% 的成绩,这使我们领先于当时所有公开基准测试的记忆系统。今天,我们发布了一个新结果:在 LongMemEval_s 上达到约 99%。

事先要明确一点:这(目前)还不是我们主要生产环境中的 Supermemory 引擎。 相反,这篇博客介绍了一个全新的、高度实验性的 Agent 工作流,我们构建它是为了看看在不受核心生产环境限制的情况下,我们究竟能将记忆检索和推理的极限推到多远。几个月的研究让我们走到了这一步。

这就是我们实现这一目标的方法。介绍我们的新技术:ASMR(Agentic Search and Memory Retrieval,即 Agent 搜索与记忆检索)

这项技术的特点是:

  • 非常容易实现
  • 不需要向量数据库或嵌入,并且可以完全在内存中完成
  • 这意味着它可以嵌入到其他系统中,甚至是机器人这样的设备中。

引言

LongMemEval 是最严格的公开长期记忆基准测试之一。与测试短上下文简单检索的基准不同,LongMemEval 旨在模拟真实生产环境的混乱:超过 11.5 万 token 的对话历史、相互矛盾的信息、跨多个会话的事件,以及需要时间推理的问题。

大多数记忆系统得分低的原因通常是检索问题,而不是推理问题。即使召回率很高,但如果检索结果中存在大量噪声,LLM 可能也难以利用这些信息。问题在于,首先如何只将正确的信息放入上下文窗口中,而更困难的是:如何判断检索到的事实是否已经过时,以及是否有更新的版本取代了它。

为了解决这个问题,我们摒弃了传统的 RAG,构建了一个多 Agent 编排的流水线。

设置与实验架构

标准的向量搜索总体上是不错的。然而,在处理密集的多会话时间数据这种细微差别时,它就失效了。语义相似度匹配无法可靠地区分旧事实和新修正。为了应对 LongMemEval 的复杂性,我们必须从头开始重新思考我们的数据摄取和检索流水线,用主动的 Agent 推理取代向量数学。

就像 ASMR 一样,这项技术简单且令人满意。

1. 并行编排与数据摄取(观察者 Agent)

我们没有对用户会话进行分块和嵌入,而是部署了一个 Agent 编排器,利用 3 个并行的读取(观察者)Agent(由 Gemini 2.0 Flash 驱动)。这些 Agent 并发地读取原始会话(例如,Agent 1 处理会话 1、3、5;Agent 2 处理会话 2、4、6)。

它们的目标是针对六个维度进行定向知识提取:个人信息、偏好、事件、时间数据、更新和助手信息。这些结构化的发现随后被原生存储,并映射到它们的源会话。

2. 主动 Agent 检索(搜索 Agent)

当一个问题到来时,我们不会查询向量数据库。相反,我们部署了 3 个并行的搜索 Agent。这些 Agent 主动读取并推理存储的发现,每个都有专门的关注点:

  • Agent 1: 搜索直接事实和明确陈述。
  • Agent 2: 查找相关上下文、社交线索和隐含信息。
  • Agent 3: 重建时间线和关系图谱。

编排器会汇总来自所有三个搜索 Agent 的发现,并提取逐字会话摘录以进行细节验证。这使得基于实际认知理解(而不仅仅是关键词或数学相似度)的智能检索成为可能。

3. Agent 编排的答案集成

一旦上下文组装完毕,单个提示词无法处理 LongMemEval 中种类繁多的问题。有些问题需要你推断细节,而另一些则需要你极其精确。我们试验了两种不同的 Agent 回答流程:

运行 1:8 变体集成(准确率 98.60%)

在我们的第一种方法中,我们将检索到的上下文路由到 8 个并行运行的高度专业化提示词变体中(例如,精确计数器、时间专家、深度上下文分析器)。每个变体独立评估上下文并生成答案。如果 任何 一个 8 个不同的推理路径成功找到了真实答案,该问题就被标记为正确。这种并行多判断方法使我们达到了惊人的 98.60% 总体准确率,完美覆盖了我们的盲点。

运行 2:12 变体决策森林(准确率 97.20%)

为了测试一个能够产生单一、权威答案(而不是依赖多个独立尝试)的系统,我们将架构扩展为 12 变体决策森林。

在这里,12 个高度专业化的 Agent(由 GPT-4o-mini 驱动)独立回答问题。然后,我们引入了一个 聚合器 LLM 作为最终判断者。聚合器使用多数投票、领域信任和冲突解决来综合 12 个答案。这种单一的共识模型也达到了极高的 97.20% 准确率

Dhravya Shah - inline image

结果

这种实验性架构的性能从根本上改变了长期 AI 记忆的可能性。要理解这一成就的规模,以下是我们的实验性 Agent 流程与我们原始生产引擎以及整个行业相比的表现:

Dhravya Shah - inline image

这个系统对 Agent 延迟的影响也没有你想象的那么大——不过这是我们一直在努力改进的一点。

Dhravya Shah - inline image

我们学到了什么以及下一步计划

构建一个在生产级基准测试上达到约 99% 准确率的系统,带来了一些关键的工程见解:

  1. Agent 检索优于向量搜索: 放弃向量嵌入,改用主动搜索 Agent 是最大的突破。主动搜索上下文的 Agent 消除了语义相似度陷阱,而传统 RAG 正是因为这个陷阱而在处理时间变化和更新时失败。
  2. 并行处理至关重要: 将数据摄取和检索工作负载分配给多个专用 Agent(3 个读取,3 个搜索)极大地提高了事实提取的速度和粒度。这也有助于防止冲突,因为每个 Agent 在提取时都可以有专门的关注点。
  3. 专业化优于通用化: 将上下文路由到专门的专家 Agent(如计数器或细节提取器)远远优于任何单一的通用提示词。

由于这是一个实验性的沙盒环境,而不是我们核心的 Supermemory 引擎,我们希望 AI 社区能够从中学习并在此基础上进行构建。

我们很快将开源这个实验性 Agent 流程的完整代码。 记忆是一个不断演变的挑战,虽然这项研究推高了可能性的上限,但我们已经在研究如何将这些纯 Agent 检索技术应用到我们的核心生产环境中。

正好在 11 天后(4 月初),我们将发布并开源关于这个新 Agent 记忆系统的所有内容。它将以公开的方式构建,供大家见证。我们玩得很开心。

查看我们的 GitHub https://github.com/supermemoryai,并密切关注那里的发布 👀

Agent 记忆现在(可能)是一个已解决的问题了?

使用 YouMind 创作爆款文章

收集素材、拆解爆点、生成视觉资产、撰写内容,并在一个 AI 工作空间里完成分发。

了解 YouMind

更多可拆解样本

近期爆款文章

探索更多爆款文章