注記: これはスタントでした。業界の多くの人々は、ベンチマーク上で完全に事実ではない数値を主張し続けています。そこで、ベンチマークをいかに簡単に破れるかを示すために、私たちはこれを実行しました。
https://x.com/DhravyaShah/status/2036243995500966260
エージェントのメモリは、完全に解決されたかもしれません。
数年後には、数十億のエージェントがユーザーごとに高度にパーソナライズされ、特化し、私たちの行動すべてから常に学習し進化しているでしょう。これが、私たちが長年にわたって AI メモリについて研究してきた理由です。それを最終的に完成させたとき、何が起こるのでしょうか?
数ヶ月前、私たちは最初の研究レポートを公開し、Supermemory が LongMemEval-s で約 85% を達成したことを示しました。これは、当時公開ベンチマークされていたすべてのメモリシステムを上回る結果でした。そして本日、新たな結果を公開します。LongMemEval_s で約 99% です。
最初に明確にしておきますが、これはまだメインの本番環境の Supermemory エンジンには搭載されていません。 むしろ、このブログでは、コアの本番環境の制約から独立して、メモリ検索と推論の絶対的な限界をどこまで押し上げられるかを正確に確認するために構築した、新しい高度に実験的なエージェントフローについて説明します。数ヶ月の研究で、ここにたどり着きました。
これが、私たちがそこに到達した方法です。新しいテクニック、ASMR(Agentic Search and Memory Retrieval) を紹介します。
このテクニックは:
- 実装が非常に簡単
- ベクターデータベースや埋め込みは不要で、完全にインメモリで実行可能
- つまり、他のシステム(ロボットなど)にも組み込むことができる
はじめに
LongMemEval は、長期記憶に関する最も厳格な公開ベンチマークの 1 つです。短いコンテキストでの単純な検索をテストするベンチマークとは異なり、LongMemEval は実際の本番環境のカオスをシミュレートするように設計されています。115k 以上のトークンからなる会話履歴、矛盾する情報、複数のセッションにまたがるイベント、時間に関する推論を必要とする質問などです。
ほとんどのメモリシステムのスコアが低い理由は、通常、推論ではなく検索にあります。たとえ再現率が高くても、検索にノイズが多いと、LLM がそれをうまく活用できない可能性があります。問題は、そもそも適切な情報だけをコンテキストウィンドウに取り込むことであり、さらに難しいのは、取得した情報が古く、新しいバージョンがそれを無効にしていることを認識することです。
これを解決するために、私たちは従来の RAG から離れ、マルチエージェントオーケストレーションパイプラインを構築しました。
セットアップと実験アーキテクチャ
標準的なベクトル検索は一般的に優れています。しかし、密度が高く複数セッションにわたる時間的データのニュアンスを扱う場合、機能しなくなります。意味的類似性マッチングでは、古い事実と新しい修正を確実に区別できません。LongMemEval の複雑さに取り組むために、私たちは取り込みと検索のパイプラインをゼロから再考し、ベクトル計算をアクティブなエージェント推論に置き換える必要がありました。
ASMR と同様に、このテクニックはシンプルで満足感があります。
1. 並列オーケストレーションと取り込み(Observer エージェント)
ユーザーセッションをチャンク化して埋め込む代わりに、3 つの並列リーダー(Observer)エージェント(Gemini 2.0 Flash を搭載)を利用するエージェントオーケストレーターを展開しました。これらのエージェントは、生のセッションを同時に読み取ります(例:エージェント 1 はセッション 1、3、5 を担当、エージェント 2 は 2、4、6 を担当)。
彼らの目標は、個人情報、好み、イベント、時間データ、更新、アシスタント情報という 6 つのベクトルにわたるターゲットを絞った知識抽出です。これらの構造化された発見事項は、ネイティブに保存され、ソースセッションにマッピングされます。
2. アクティブなエージェント検索(Search エージェント)
質問が届いたとき、私たちはベクターデータベースにクエリを実行しません。代わりに、3 つの並列 Search エージェントを展開します。これらのエージェントは、保存された発見事項を能動的に読み取り、推論し、それぞれが専門的な焦点を持ちます。
- エージェント 1: 直接的な事実と明示的な記述を検索します。
- エージェント 2: 関連するコンテキスト、社会的な手がかり、含意を探します。
- エージェント 3: 時間的なタイムラインと関係マップを再構築します。
オーケストレーターは、3 つの Search エージェントすべてからの発見事項をコンパイルし、詳細検証のために逐語的なセッション抜粋を取得します。これにより、キーワードや数学的な類似性ではなく、実際の認知的理解に基づいたインテリジェントな検索が可能になります。
3. エージェントオーケストレーションによる回答アンサンブル
コンテキストが組み立てられた後、LongMemEval の多種多様な質問タイプを単一のプロンプトで処理することはできません。詳細を推測する必要がある質問もあれば、極めて具体的である必要がある質問もあります。私たちは、2 つの異なるエージェント回答フローを実験しました。
Run 1: 8 バリアントアンサンブル(精度 98.60%)
最初のアプローチでは、取得したコンテキストを、並行して実行される 8 つの高度に特殊化されたプロンプトバリアント(例:正確なカウンター、時間スペシャリスト、コンテキスト深掘り)にルーティングしました。各バリアントは独立してコンテキストを評価し、回答を生成しました。8 つの異なる推論経路のいずれかが真実に到達した場合、その質問は正解とマークされました。この並列マルチジャッジアプローチにより、驚異的な 98.60% の全体精度 を達成し、私たちの盲点を完全にカバーしました。
Run 2: 12 バリアント決定フォレスト(精度 97.20%)
複数の独立した試行に依存するのではなく、単一の信頼できる回答を生成するシステムをテストするために、アーキテクチャを 12 バリアントの決定フォレストに拡張しました。
ここでは、12 の高度に特殊化されたエージェント(GPT-4o-mini を搭載)が独立してプロンプトに回答しました。次に、Aggregator LLM を導入し、最終的なジャッジとして機能させました。Aggregator は、多数決、ドメイン信頼度、競合解決を使用して 12 の回答を統合しました。この単一のコンセンサスモデルも、非常に高い 97.20% の精度 を達成しました。

結果
この実験的アーキテクチャのパフォーマンスは、長期的な AI メモリで可能なことの限界を根本的に変えます。この成果の規模を理解するために、私たちの実験的なエージェントフローが、元の本番エンジンおよび業界全体と比較してどのように優れているかを以下に示します。

また、このシステムは、予想されるほどエージェントのレイテンシに影響を与えません。ただし、これは私たちが常に取り組んでいる点です。

学んだことと今後の展望
本番グレードのベンチマークで約 99% の精度を達成するシステムを構築したことで、いくつかの重要なエンジニアリング的洞察が得られました。
- エージェント検索はベクトル検索に勝る: ベクトル埋め込みをアクティブな Search エージェントに置き換えたことが、最大のブレークスルーでした。エージェントが能動的にコンテキストを検索することで、従来の RAG が時間的変化や更新で失敗する原因となる意味的類似性の罠を排除できました。
- 並列処理は重要: 取り込みと検索のワークロードを複数の専用エージェント(3 つの読み取り、3 つの検索)に分割することで、事実抽出の速度と粒度の両方が劇的に向上しました。また、各エージェントが抽出中に専門的な焦点を持つことができたため、競合の防止にも役立ちました。
- 特化は汎化に勝る: 専用のスペシャリストエージェント(カウンターや詳細抽出器など)にコンテキストをルーティングすることは、単一のマスタープロンプトよりもはるかに優れたパフォーマンスを発揮します。
これはコアの Supermemory エンジンではなく実験的なサンドボックスであったため、AI コミュニティがこのアーキテクチャから学び、それを基に構築できるようにしたいと考えています。
まもなく、この実験的なエージェントフローの完全なコードをオープンソース化します。 メモリは常に進化する課題ですが、この研究が可能なことの天井を押し上げる一方で、私たちはすでにこれらの純粋なエージェント検索技術をコアの本番環境にどのように適用するかを検討しています。
ちょうど 11 日後(4 月初め)に、この新しいエージェントメモリシステムに関するすべてを公開し、オープンソース化します。それは公開で構築され、皆さん全員が見るためのスペクタクルとなるでしょう。私たちは楽しんでいます。
GitHub をチェックしてください https://github.com/supermemoryai。リリースにご注目ください 👀
エージェントメモリは(おそらく)解決された問題になりましたか?





