注意:這是一場特技表演。業界有許多人不斷聲稱基準測試上的某些數字完全是虛假的。所以我們就這麼做了,為了向你展示打破基準測試有多麼容易。
https://x.com/DhravyaShah/status/2036243995500966260
Agent 記憶可能已經完全被解決了。
在幾年內,將會有數十億個 Agent 為每個使用者提供高度個人化和專業化的服務——不斷學習並根據我們所做的一切演進。這就是為什麼我們多年來一直在研究 AI 記憶。當我們最終完善它時,會發生什麼事?
幾個月前,我們發表了第一份研究報告,顯示 Supermemory 在 LongMemEval-s 上達到了約 85% 的成績,這個結果讓我們領先當時所有公開基準測試的記憶系統。今天,我們發表了一項新成果:在 LongMemEval_s 上達到約 99%。
事先必須說清楚:這項成果還不在我們主要的 Supermemory 生產引擎中。 相反地,這篇文章介紹了一個全新的、高度實驗性的 Agent 流程,我們建立它是為了確切了解,在不受核心生產限制的情況下,我們能將記憶檢索和推理的絕對極限推到多遠。幾個月的研究讓我們達到了這個目標。
這就是我們達成目標的方法。介紹我們的新技術:ASMR(Agentic Search and Memory Retrieval,Agent 搜尋與記憶檢索)
這項技術的特點是:
- 非常容易實作
- 不需要向量資料庫或嵌入,可以完全在記憶體中完成
- 這意味著它可以嵌入到其他系統中,甚至是機器人等裝置。
簡介
LongMemEval 是針對長期記憶最嚴謹的公開基準測試之一。與測試短語境下簡單檢索的基準測試不同,LongMemEval 旨在模擬真實生產環境的混亂:超過 11.5 萬個 token 的對話歷史、相互矛盾的資訊、跨越多個會話的事件,以及需要對時間進行推理的問題。
大多數記憶系統得分低的原因通常是檢索——而不是推理。即使召回率很高,但如果檢索過程中存在大量雜訊,LLM 可能仍難以使用這些資訊。問題在於首先要將正確的資訊放入語境視窗中,而更困難的是:知道何時檢索到的事實已經過時,並有更新的版本取代它。
為了解決這個問題,我們跳脫了傳統的 RAG,建立了一個多 Agent 協調的流程。
設定與實驗架構
標準的向量搜尋在一般情況下表現良好。然而,在處理密集、多會話的時間資料的細微差別時,它就會失效。語義相似度比對無法可靠地區分舊事實和新修正。為了應對 LongMemEval 的複雜性,我們必須從頭開始重新思考我們的攝取和檢索流程,用主動的 Agent 推理取代向量數學。
就像 ASMR 一樣,這項技術簡單又令人滿意。
1. 並行協調與攝取(觀察者 Agent)
我們沒有對使用者會話進行分塊和嵌入,而是部署了一個 Agent 協調器,利用 3 個並行的讀取器(觀察者)Agent(由 Gemini 2.0 Flash 驅動)。這些 Agent 同時讀取原始會話(例如,Agent 1 負責會話 1、3、5;Agent 2 負責會話 2、4、6)。
它們的目標是針對六個面向進行有目標的知識提取:個人資訊、偏好、事件、時間資料、更新和助理資訊。這些結構化的發現結果會被原生儲存,並對應到它們的來源會話。
2. 主動 Agent 檢索(搜尋 Agent)
當一個問題出現時,我們不會查詢向量資料庫。相反地,我們部署 3 個並行的搜尋 Agent。這些 Agent 主動讀取並推理儲存的發現結果,每個 Agent 都有專門的關注點:
- Agent 1: 搜尋直接事實和明確陳述。
- Agent 2: 尋找相關背景、社交線索和隱含意義。
- Agent 3: 重建時間線和關係圖。
協調器會彙編來自所有三個搜尋 Agent 的發現結果,並提取逐字會話片段以進行細節驗證。這允許基於實際認知理解(而不僅僅是關鍵字或數學相似性)進行智慧檢索。
3. Agent 協調的答案整合
一旦背景資訊彙編完成,單一提示無法處理 LongMemEval 中種類繁多的問題類型。有些問題需要你推斷細節,而另一些則需要你非常精確。我們實驗了兩種不同的 Agent 回答流程:
運行 1:8 變體整合(準確率 98.60%)
在我們的第一種方法中,我們將檢索到的背景資訊路由到 8 個高度專業化的提示變體,這些變體並行運行(例如,精確計數器、時間專家、深度背景分析)。每個變體獨立評估背景資訊並生成答案。如果 8 個不同的推理路徑中 任何一個 成功達到了真實答案,該問題就被標記為正確。這種並行多重判斷方法使我們達到了驚人的 98.60% 整體準確率,完美地覆蓋了我們的盲點。
運行 2:12 變體決策森林(準確率 97.20%)
為了測試一個能產生單一、權威答案(而不是依賴多個獨立嘗試)的系統,我們將架構擴展為 12 變體決策森林。
在這裡,12 個高度專業化的 Agent(由 GPT-4o-mini 驅動)獨立回答提示。然後,我們引入了一個聚合 LLM 作為最終判斷者。聚合器使用多數投票、領域信任和衝突解決來綜合 12 個答案。這個單一共識模型也達到了極高的 97.20% 準確率。

結果
這個實驗性架構的效能從根本上改變了長期 AI 記憶的可能性。為了理解這項成就的規模,以下是我們的實驗性 Agent 流程與我們原始的生產引擎以及整個業界的比較:

這個系統對 Agent 延遲的影響也比你想像的要小——不過這是我們持續在改進的一個點。

我們學到了什麼與下一步
建立一個在生產級基準測試上達到約 99% 準確率的系統,帶來了幾個關鍵的工程見解:
- Agent 檢索勝過向量搜尋: 放棄向量嵌入,改用主動搜尋 Agent 是最大的突破。主動搜尋背景資訊的 Agent 消除了導致傳統 RAG 在時間變化和更新上失敗的語義相似性陷阱。
- 並行處理至關重要: 將攝取和檢索工作負載分散到多個專用 Agent(3 個讀取、3 個搜尋)上,顯著提高了事實提取的速度和粒度。這也有助於防止衝突,因為每個 Agent 在提取時都被允許有專門的關注點。
- 專業化勝過通用化: 將背景資訊路由到專門的 Agent(例如計數器或細節提取器)遠遠優於任何單一的主提示。
由於這是一個實驗性的沙盒,而不是我們核心的 Supermemory 引擎,我們希望 AI 社群能夠從這個架構中學習並在此基礎上進行建構。
我們很快就會將這個實驗性 Agent 流程的完整程式碼開源。 記憶是一個不斷演進的挑戰,雖然這項研究推高了可能性的天花板,但我們已經在考慮如何將這些純 Agent 檢索技術轉移到我們的核心生產環境中。
在整整 11 天後(四月初),我們將發布並開源關於這個全新 Agent 記憶系統的一切。它將公開建構,讓你們所有人觀看這場盛宴。我們玩得很開心。
請查看我們的 GitHub https://github.com/supermemoryai,並持續關注那裡以獲取發布消息 👀
Agent 記憶現在(可能)是一個被解決的問題了?





