Supermemory ASMR：在 AI Agent 記憶領域達到 99% SOTA

注意：這是一場特技表演。業界有許多人不斷聲稱基準測試上的某些數字完全是虛假的。所以我們就這麼做了，為了向你展示打破基準測試有多麼容易。

https://x.com/DhravyaShah/status/2036243995500966260

Agent 記憶可能已經完全被解決了。

在幾年內，將會有數十億個 Agent 為每個使用者提供高度個人化和專業化的服務——不斷學習並根據我們所做的一切演進。這就是為什麼我們多年來一直在研究 AI 記憶。當我們最終完善它時，會發生什麼事？

幾個月前，我們發表了第一份研究報告，顯示 Supermemory 在 LongMemEval-s 上達到了約 85% 的成績，這個結果讓我們領先當時所有公開基準測試的記憶系統。今天，我們發表了一項新成果：在 LongMemEval_s 上達到約 99%。

事先必須說清楚：這項成果還不在我們主要的 Supermemory 生產引擎中。 相反地，這篇文章介紹了一個全新的、高度實驗性的 Agent 流程，我們建立它是為了確切了解，在不受核心生產限制的情況下，我們能將記憶檢索和推理的絕對極限推到多遠。幾個月的研究讓我們達到了這個目標。

這就是我們達成目標的方法。介紹我們的新技術：ASMR（Agentic Search and Memory Retrieval，Agent 搜尋與記憶檢索）

這項技術的特點是：

非常容易實作
不需要向量資料庫或嵌入，可以完全在記憶體中完成
這意味著它可以嵌入到其他系統中，甚至是機器人等裝置。

簡介

LongMemEval 是針對長期記憶最嚴謹的公開基準測試之一。與測試短語境下簡單檢索的基準測試不同，LongMemEval 旨在模擬真實生產環境的混亂：超過 11.5 萬個 token 的對話歷史、相互矛盾的資訊、跨越多個會話的事件，以及需要對時間進行推理的問題。

大多數記憶系統得分低的原因通常是檢索——而不是推理。即使召回率很高，但如果檢索過程中存在大量雜訊，LLM 可能仍難以使用這些資訊。問題在於首先要將正確的資訊放入語境視窗中，而更困難的是：知道何時檢索到的事實已經過時，並有更新的版本取代它。

為了解決這個問題，我們跳脫了傳統的 RAG，建立了一個多 Agent 協調的流程。

設定與實驗架構

標準的向量搜尋在一般情況下表現良好。然而，在處理密集、多會話的時間資料的細微差別時，它就會失效。語義相似度比對無法可靠地區分舊事實和新修正。為了應對 LongMemEval 的複雜性，我們必須從頭開始重新思考我們的攝取和檢索流程，用主動的 Agent 推理取代向量數學。

就像 ASMR 一樣，這項技術簡單又令人滿意。

1. 並行協調與攝取（觀察者 Agent）

我們沒有對使用者會話進行分塊和嵌入，而是部署了一個 Agent 協調器，利用 3 個並行的讀取器（觀察者）Agent（由 Gemini 2.0 Flash 驅動）。這些 Agent 同時讀取原始會話（例如，Agent 1 負責會話 1、3、5；Agent 2 負責會話 2、4、6）。

它們的目標是針對六個面向進行有目標的知識提取：個人資訊、偏好、事件、時間資料、更新和助理資訊。這些結構化的發現結果會被原生儲存，並對應到它們的來源會話。

2. 主動 Agent 檢索（搜尋 Agent）

當一個問題出現時，我們不會查詢向量資料庫。相反地，我們部署 3 個並行的搜尋 Agent。這些 Agent 主動讀取並推理儲存的發現結果，每個 Agent 都有專門的關注點：

Agent 1： 搜尋直接事實和明確陳述。
Agent 2： 尋找相關背景、社交線索和隱含意義。
Agent 3： 重建時間線和關係圖。

協調器會彙編來自所有三個搜尋 Agent 的發現結果，並提取逐字會話片段以進行細節驗證。這允許基於實際認知理解（而不僅僅是關鍵字或數學相似性）進行智慧檢索。

3. Agent 協調的答案整合

一旦背景資訊彙編完成，單一提示無法處理 LongMemEval 中種類繁多的問題類型。有些問題需要你推斷細節，而另一些則需要你非常精確。我們實驗了兩種不同的 Agent 回答流程：

運行 1：8 變體整合（準確率 98.60%）

在我們的第一種方法中，我們將檢索到的背景資訊路由到 8 個高度專業化的提示變體，這些變體並行運行（例如，精確計數器、時間專家、深度背景分析）。每個變體獨立評估背景資訊並生成答案。如果 8 個不同的推理路徑中 任何一個 成功達到了真實答案，該問題就被標記為正確。這種並行多重判斷方法使我們達到了驚人的 98.60% 整體準確率，完美地覆蓋了我們的盲點。

運行 2：12 變體決策森林（準確率 97.20%）

為了測試一個能產生單一、權威答案（而不是依賴多個獨立嘗試）的系統，我們將架構擴展為 12 變體決策森林。

在這裡，12 個高度專業化的 Agent（由 GPT-4o-mini 驅動）獨立回答提示。然後，我們引入了一個聚合 LLM 作為最終判斷者。聚合器使用多數投票、領域信任和衝突解決來綜合 12 個答案。這個單一共識模型也達到了極高的 97.20% 準確率。

結果

這個實驗性架構的效能從根本上改變了長期 AI 記憶的可能性。為了理解這項成就的規模，以下是我們的實驗性 Agent 流程與我們原始的生產引擎以及整個業界的比較：

這個系統對 Agent 延遲的影響也比你想像的要小——不過這是我們持續在改進的一個點。

我們學到了什麼與下一步

建立一個在生產級基準測試上達到約 99% 準確率的系統，帶來了幾個關鍵的工程見解：

Agent 檢索勝過向量搜尋： 放棄向量嵌入，改用主動搜尋 Agent 是最大的突破。主動搜尋背景資訊的 Agent 消除了導致傳統 RAG 在時間變化和更新上失敗的語義相似性陷阱。
並行處理至關重要： 將攝取和檢索工作負載分散到多個專用 Agent（3 個讀取、3 個搜尋）上，顯著提高了事實提取的速度和粒度。這也有助於防止衝突，因為每個 Agent 在提取時都被允許有專門的關注點。
專業化勝過通用化： 將背景資訊路由到專門的 Agent（例如計數器或細節提取器）遠遠優於任何單一的主提示。

由於這是一個實驗性的沙盒，而不是我們核心的 Supermemory 引擎，我們希望 AI 社群能夠從這個架構中學習並在此基礎上進行建構。

我們很快就會將這個實驗性 Agent 流程的完整程式碼開源。 記憶是一個不斷演進的挑戰，雖然這項研究推高了可能性的天花板，但我們已經在考慮如何將這些純 Agent 檢索技術轉移到我們的核心生產環境中。

在整整 11 天後（四月初），我們將發布並開源關於這個全新 Agent 記憶系統的一切。它將公開建構，讓你們所有人觀看這場盛宴。我們玩得很開心。

請查看我們的 GitHub https://github.com/supermemoryai，並持續關注那裡以獲取發布消息 👀

Agent 記憶現在（可能）是一個被解決的問題了？