Wir haben die Grenzen des Agenten-Gedächtnisses gesprengt: Wir präsentieren ein ~99% SOTA-Gedächtnissystem.

@DhravyaShah
ENGLISCHvor 3 Monaten · 22. März 2026
2.6M
3.9K
412
260
8.4K

TL;DR

Dhravya Shah stellt ASMR vor, einen experimentellen agentenbasierten Workflow, der parallele LLM-Agenten anstelle von Vektordatenbanken nutzt, um nahezu perfekte Ergebnisse bei Gedächtnis-Benchmarks zu erzielen.

Hinweis: Dies war ein Stunt. Viele in der Branche behaupten ständig, dass die Zahlen in den Benchmarks völlig falsch sind. Also haben wir genau das gemacht, um zu zeigen, wie einfach es ist, den Benchmark zu knacken.

https://x.com/DhravyaShah/status/2036243995500966260

Das Problem des Agentengedächtnisses ist jetzt vielleicht vollständig gelöst.

In ein paar Jahren werden MILLIARDEN von Agenten hochgradig personalisiert und spezialisiert für jeden Benutzer sein – sie lernen und entwickeln sich ständig weiter, basierend auf allem, was wir tun. Deshalb forschen wir seit Jahren an KI-Gedächtnis. Was passiert, wenn wir es endlich perfektionieren?

Vor ein paar Monaten veröffentlichten wir unseren ersten Forschungsbericht, der zeigte, dass Supermemory bei LongMemEval-s etwa 85 % erreichte – ein Ergebnis, das uns vor jedem öffentlich verglichenen Gedächtnissystem dieser Zeit platzierte. Heute veröffentlichen wir ein neues Ergebnis: ~99 % bei LongMemEval_s.

Um es gleich vorweg klarzustellen: Dies ist (noch) nicht in unserer Hauptproduktions-Supermemory-Engine. Vielmehr behandelt dieser Blog einen neuen, hochgradig experimentellen agentischen Ablauf, den wir entwickelt haben, um zu sehen, wie weit wir die absoluten Grenzen des Gedächtnisabrufs und der Argumentation treiben können, unabhängig von unseren Kernproduktionsbeschränkungen. Ein paar Monate Forschung haben uns hierher gebracht.

So sind wir dorthin gelangt. Wir stellen unsere neue Technik vor: ASMR (Agentic Search and Memory Retrieval)

Diese Technik ist:

  • Wirklich einfach zu implementieren
  • Benötigt weder eine Vektordatenbank noch Embeddings und kann vollständig im Arbeitsspeicher durchgeführt werden
  • Das bedeutet, sie kann in andere Systeme eingebettet werden, sogar in Dinge wie Roboter.

Einführung

LongMemEval ist einer der strengsten öffentlich verfügbaren Benchmarks für Langzeitgedächtnis. Im Gegensatz zu Benchmarks, die einfaches Abrufen über kurze Kontexte testen, ist LongMemEval darauf ausgelegt, das Chaos realer Produktionsumgebungen zu simulieren: Gesprächsverläufe mit über 115.000 Token, widersprüchliche Informationen, Ereignisse, die sich über mehrere Sitzungen erstrecken, und Fragen, die zeitliches Denken erfordern.

Der Grund, warum die meisten Gedächtnissysteme schlecht abschneiden, liegt normalerweise im Abruf – nicht im Denken. Selbst wenn die Trefferquote hoch ist, könnte das LLM Schwierigkeiten haben, die Informationen zu nutzen, wenn der Abruf zu viel Rauschen enthält. Das Problem besteht darin, überhaupt nur die richtigen Informationen in den Kontext zu bekommen, und noch schwieriger: zu wissen, wann eine abgerufene Tatsache veraltet ist und eine neuere Version sie ersetzt.

Um dies zu lösen, haben wir uns vom traditionellen RAG entfernt und eine Multi-Agenten-orchestrierte Pipeline aufgebaut.

Aufbau & Experimentelle Architektur

Die standardmäßige Vektorsuche ist im Allgemeinen gut. Sie versagt jedoch, wenn es um die Nuancen dichter, sitzungsübergreifender Zeitdaten geht. Der Abgleich semantischer Ähnlichkeit kann zuverlässig zwischen einer alten Tatsache und einer neuen Korrektur unterscheiden. Um die Komplexität von LongMemEval zu bewältigen, mussten wir unsere Erfassungs- und Abrufpipeline von Grund auf neu denken und die Vektormathematik durch aktives agentisches Denken ersetzen.

Genau wie ASMR ist diese Technik einfach und befriedigend.

1. Parallele Orchestrierung & Erfassung (Beobachter-Agenten)

Anstatt Benutzersitzungen zu chunkieren und zu embedden, setzten wir einen Agenten-Orchestrator ein, der 3 parallele Lese- (Beobachter-) Agenten (angetrieben von Gemini 2.0 Flash) nutzt. Diese Agenten lesen gleichzeitig rohe Sitzungen (z. B. Agent 1 übernimmt Sitzungen 1, 3, 5; Agent 2 übernimmt 2, 4, 6).

Ihr Ziel ist die gezielte Wissensextraktion entlang von sechs Vektoren: Persönliche Informationen, Präferenzen, Ereignisse, Zeitdaten, Aktualisierungen und Assistenteninformationen. Diese strukturierten Ergebnisse werden dann nativ gespeichert und ihren Quellsitzungen zugeordnet.

2. Aktiver Agentischer Abruf (Such-Agenten)

Wenn eine Frage eingeht, fragen wir keine Vektordatenbank ab. Stattdessen setzen wir 3 parallele Such-Agenten ein. Diese Agenten lesen und analysieren aktiv die gespeicherten Ergebnisse, jeder mit einem speziellen Fokus:

  • Agent 1: Sucht nach direkten Fakten und expliziten Aussagen.
  • Agent 2: Sucht nach verwandtem Kontext, sozialen Hinweisen und Implikationen.
  • Agent 3: Rekonstruiert zeitliche Abläufe und Beziehungsdiagramme.

Der Orchestrator stellt die Ergebnisse aller drei Such-Agenten zusammen und zieht wörtliche Sitzungsauszüge zur Detailüberprüfung heran. Dies ermöglicht einen intelligenten Abruf, der auf tatsächlichem kognitivem Verständnis basiert und nicht nur auf Schlüsselwort- oder mathematischer Ähnlichkeit.

3. Die Agenten-orchestrierten Antwort-Ensembles

Sobald der Kontext zusammengestellt ist, kann ein einzelner Prompt die schiere Vielfalt der Fragetypen in LongMemEval nicht bewältigen. Einige Fragen erfordern das Ableiten von Details, während andere eine punktgenaue Antwort erfordern. Wir experimentierten mit zwei verschiedenen agentischen Antwortflüssen:

Durchlauf 1: Das 8-Varianten-Ensemble (98,60 % Genauigkeit)

In unserem ersten Ansatz leiteten wir den abgerufenen Kontext durch 8 hochspezialisierte Prompt-Varianten, die parallel liefen (z. B. ein Präziser Zähler, ein Zeitspezialist, ein Kontext-Tieftaucher). Jede Variante bewertete den Kontext unabhängig und generierte eine Antwort. Wenn irgendeiner der 8 unterschiedlichen Argumentationspfade erfolgreich zur Grundwahrheit gelangte, wurde die Frage als richtig gewertet. Dieser parallele Multi-Judge-Ansatz ermöglichte es uns, eine erstaunliche Gesamtgenauigkeit von 98,60 % zu erreichen und unsere blinden Flecken perfekt abzudecken.

Durchlauf 2: Der 12-Varianten-Entscheidungswald (97,20 % Genauigkeit)

Um ein System zu testen, das eine einzige, maßgebliche Antwort liefert, anstatt sich auf mehrere unabhängige Versuche zu stützen, erweiterten wir unsere Architektur zu einem 12-Varianten-Entscheidungswald.

Hier beantworteten 12 hochspezialisierte Agenten (angetrieben von GPT-4o-mini) unabhängig voneinander den Prompt. Dann führten wir ein Aggregator-LLM als endgültigen Richter ein. Der Aggregator synthetisierte die 12 Antworten mittels Mehrheitsentscheidung, Domänenvertrauen und Konfliktlösung. Dieses singuläre Konsensmodell erreichte ebenfalls eine unglaublich hohe Genauigkeit von 97,20 %.

Dhravya Shah - inline image

Ergebnisse

Die Leistung dieser experimentellen Architektur verschiebt grundlegend, was im Bereich des langfristigen KI-Gedächtnisses möglich ist. Um das Ausmaß dieser Errungenschaft zu verstehen, hier ein Vergleich unserer experimentellen agentischen Abläufe mit unserer ursprünglichen Produktions-Engine und der breiteren Branche insgesamt:

Dhravya Shah - inline image

Dieses System beeinträchtigt die Latenz des Agenten auch nicht so stark, wie man erwarten würde – allerdings arbeiten wir ständig an diesem Punkt.

Dhravya Shah - inline image

Was wir gelernt haben & Wie es weitergeht

Der Bau eines Systems, das auf einem produktionsreifen Benchmark eine Genauigkeit von ~99 % erreicht, hat einige entscheidende technische Erkenntnisse geliefert:

  1. Agentischer Abruf schlägt Vektorsuche: Der Verzicht auf Vektor-Embeddings zugunsten aktiver Such-Agenten war der mit Abstand größte Durchbruch. Agenten, die aktiv nach Kontext suchen, umgehen die Falle der semantischen Ähnlichkeit, die dazu führt, dass traditionelles RAG bei zeitlichen Änderungen und Aktualisierungen versagt.
  2. Parallele Verarbeitung ist entscheidend: Die Aufteilung der Erfassungs- und Abrufarbeitslasten auf mehrere dedizierte Agenten (3 lesende, 3 suchende) verbesserte sowohl die Geschwindigkeit als auch die Granularität der Faktenextraktion dramatisch. Es half auch, Konflikte zu vermeiden, da jeder Agent einen spezialisierten Fokus bei der Extraktion haben konnte.
  3. Spezialisierung schlägt Generalisierung: Die Weiterleitung von Kontext durch dedizierte Spezialisten-Agenten (wie einen Zähler oder einen Detail-Extraktor) übertrifft jeden einzelnen Master-Prompt bei weitem.

Da dies eine experimentelle Sandbox und nicht unsere Kern-Supermemory-Engine war, möchten wir der KI-Community ermöglichen, aus dieser Architektur zu lernen und darauf aufzubauen.

Wir werden den vollständigen Code für diesen experimentellen agentischen Ablauf bald als Open Source veröffentlichen. Gedächtnis ist eine sich ständig weiterentwickelnde Herausforderung, und während diese Forschung die Grenzen des Möglichen verschiebt, schauen wir bereits, wie wir diese rein agentischen Abruftechniken in unsere Kernproduktionsumgebungen übertragen können.

In genau 11 Tagen (Anfang April) werden wir alles über dieses neue Agentengedächtnissystem veröffentlichen und als Open Source bereitstellen. Es wird öffentlich entwickelt, ein Spektakel für euch alle. Wir haben Spaß.

Schaut auf unserem GitHub vorbei: https://github.com/supermemoryai und haltet dort die Augen nach einem Release offen 👀

Das Agentengedächtnis ist jetzt (wahrscheinlich) ein gelöstes Problem?

Turn one viral article into a full content workflow

Collect the source, decode the pattern, create assets, draft the story, and distribute from one AI workspace.

Explore YouMind

Mehr Muster zum Entschlüsseln

Aktuelle virale Artikel

Mehr virale Artikel entdecken