हमने एजेंट मेमोरी की सीमाओं को तोड़ दिया है: पेश है ~99% SOTA मेमोरी सिस्टम।

@DhravyaShah
अंग्रेज़ी3 माह पहले · 22 मार्च 2026
2.6M
3.9K
412
260
8.4K

TL;DR

Dhravya Shah ने ASMR पेश किया है, जो एक प्रयोगात्मक एजेंटिक फ्लो है। यह मेमोरी बेंचमार्क पर लगभग सटीक स्कोर प्राप्त करने के लिए वेक्टर डेटाबेस के बजाय समानांतर LLM एजेंटों का उपयोग करता है।

नोट: यह एक स्टंट था। उद्योग में कई लोग बेंचमार्क पर कोई भी संख्या दावा करते रहते हैं जो पूरी तरह से सच नहीं होती। इसलिए हमने यह किया, ताकि आपको दिखा सकें कि बेंचमार्क को तोड़ना कितना आसान है।

https://x.com/DhravyaShah/status/2036243995500966260

एजेंट मेमोरी अब पूरी तरह से हल हो सकती है।

कुछ वर्षों में, अरबों एजेंट प्रति उपयोगकर्ता अत्यधिक वैयक्तिकृत और विशिष्ट होंगे - हमारे द्वारा किए जाने वाले हर काम पर लगातार सीखते और विकसित होते रहेंगे। यही कारण है कि हम वर्षों से AI मेमोरी पर शोध कर रहे हैं। जब हम इसे अंततः पूर्ण कर लेंगे तो क्या होगा?

कुछ महीने पहले, हमने अपनी पहली शोध रिपोर्ट प्रकाशित की जिसमें दिखाया गया कि Supermemory ने LongMemEval-s पर ~85% प्राप्त किया, एक ऐसा परिणाम जिसने हमें उस समय हर सार्वजनिक रूप से बेंचमार्क की गई मेमोरी सिस्टम से आगे रखा। आज, हम एक नया परिणाम प्रकाशित कर रहे हैं: LongMemEval_s पर ~99%।

शुरू में पूरी तरह से स्पष्ट कर दें: यह हमारे मुख्य प्रोडक्शन Supermemory इंजन में (अभी तक) नहीं है। बल्कि, यह ब्लॉग एक नए, अत्यधिक प्रयोगात्मक एजेंटिक फ्लो को कवर करता है जिसे हमने यह देखने के लिए बनाया कि हम मेमोरी रिट्रीवल और रीज़निंग की पूर्ण सीमाओं को कितनी दूर तक धकेल सकते हैं, हमारे मुख्य प्रोडक्शन की बाधाओं से स्वतंत्र होकर। शोध के कुछ महीनों में हम यहाँ तक पहुँचे हैं।

हम यहाँ तक कैसे पहुँचे। अपनी नई तकनीक का परिचय: ASMR (Agentic Search and Memory Retrieval)

यह तकनीक है:

  • लागू करना बहुत आसान
  • इसे वेक्टर डेटाबेस या एम्बेडिंग की आवश्यकता नहीं है और इसे पूरी तरह से इन-मेमोरी किया जा सकता है
  • इसका मतलब है कि इसे अन्य सिस्टमों में भी एम्बेड किया जा सकता है, यहां तक कि रोबोट जैसी चीजों में भी।

परिचय

LongMemEval लंबी अवधि की मेमोरी के लिए सबसे कठोर सार्वजनिक रूप से उपलब्ध बेंचमार्क में से एक है। छोटे संदर्भों पर सरल रिट्रीवल का परीक्षण करने वाले बेंचमार्क के विपरीत, LongMemEval को वास्तविक प्रोडक्शन वातावरण की अराजकता का अनुकरण करने के लिए डिज़ाइन किया गया है: 115k+ टोकन वार्तालाप इतिहास, विरोधाभासी जानकारी, कई सत्रों में फैली घटनाएँ, और ऐसे प्रश्न जिनके लिए समय के बारे में तर्क की आवश्यकता होती है।

अधिकांश मेमोरी सिस्टम के खराब स्कोर करने का कारण आमतौर पर रिट्रीवल है—रीज़निंग नहीं। भले ही रिकॉल अधिक हो, यदि रिट्रीवल में बहुत अधिक शोर है, तो LLM को इसका उपयोग करने में संघर्ष करना पड़ सकता है। समस्या केवल सही जानकारी को संदर्भ विंडो में लाने की है, और इससे भी कठिन: यह जानना कि कब कोई पुनर्प्राप्त तथ्य पुराना हो चुका है और एक नया संस्करण उसे बदल देता है।

इसे हल करने के लिए, हमने पारंपरिक RAG से हटकर एक मल्टी-एजेंट ऑर्केस्ट्रेटेड पाइपलाइन बनाई।

सेटअप और प्रयोगात्मक आर्किटेक्चर

मानक वेक्टर सर्च सामान्य रूप से अच्छा है। हालाँकि, यह घने, मल्टी-सेशन टेम्पोरल डेटा की बारीकियों से निपटने में विफल हो जाता है। सिमैंटिक समानता मिलान एक पुराने तथ्य और एक नए सुधार के बीच विश्वसनीय रूप से अंतर नहीं कर सकता। LongMemEval की जटिलताओं से निपटने के लिए, हमें अपनी इंजेशन और रिट्रीवल पाइपलाइन को शुरू से फिर से सोचना पड़ा, वेक्टर गणित को सक्रिय एजेंटिक रीज़निंग से बदलना पड़ा।

बिल्कुल ASMR की तरह, यह तकनीक सरल और संतोषजनक है।

1. समानांतर ऑर्केस्ट्रेशन और इंजेशन (ऑब्जर्वर एजेंट)

उपयोगकर्ता सत्रों को चंक और एम्बेड करने के बजाय, हमने 3 समानांतर रीडर (ऑब्जर्वर) एजेंटों (Gemini 2.0 Flash द्वारा संचालित) का उपयोग करते हुए एक एजेंट ऑर्केस्ट्रेटर तैनात किया। ये एजेंट एक साथ कच्चे सत्रों को पढ़ते हैं (जैसे, एजेंट 1 सत्र 1, 3, 5 लेता है; एजेंट 2 सत्र 2, 4, 6 लेता है)।

उनका लक्ष्य छह वैक्टरों पर लक्षित ज्ञान निष्कर्षण है: व्यक्तिगत जानकारी, प्राथमिकताएँ, घटनाएँ, टेम्पोरल डेटा, अपडेट और असिस्टेंट जानकारी। ये संरचित निष्कर्ष तब मूल रूप से संग्रहीत किए जाते हैं और उनके स्रोत सत्रों से मैप किए जाते हैं।

2. सक्रिय एजेंटिक रिट्रीवल (सर्च एजेंट)

जब कोई प्रश्न आता है, तो हम वेक्टर डेटाबेस से क्वेरी नहीं करते। इसके बजाय, हम 3 समानांतर सर्च एजेंटों को तैनात करते हैं। ये एजेंट संग्रहीत निष्कर्षों को सक्रिय रूप से पढ़ते हैं और उन पर तर्क करते हैं, प्रत्येक एक विशेष फोकस के साथ:

  • एजेंट 1: प्रत्यक्ष तथ्यों और स्पष्ट कथनों की खोज करता है।
  • एजेंट 2: संबंधित संदर्भ, सामाजिक संकेतों और निहितार्थों की तलाश करता है।
  • एजेंट 3: टेम्पोरल टाइमलाइन और रिलेशनशिप मैप का पुनर्निर्माण करता है।

ऑर्केस्ट्रेटर तीनों सर्च एजेंटों के निष्कर्षों को संकलित करता है, विस्तार सत्यापन के लिए शाब्दिक सत्र अंश खींचता है। यह केवल कीवर्ड या गणितीय समानता के बजाय वास्तविक संज्ञानात्मक समझ के आधार पर बुद्धिमान रिट्रीवल की अनुमति देता है।

3. एजेंट-ऑर्केस्ट्रेटेड उत्तर देने वाले एन्सेम्बल

एक बार संदर्भ तैयार हो जाने पर, एक एकल प्रॉम्प्ट LongMemEval में प्रश्न प्रकारों की विविधता को संभाल नहीं सकता। कुछ प्रश्नों के लिए आपको विवरणों का अनुमान लगाना होता है, जबकि अन्य के लिए आपको अत्यधिक विशिष्ट होना होता है। हमने दो अलग-अलग एजेंटिक उत्तर प्रवाहों के साथ प्रयोग किया:

रन 1: 8-वेरिएंट एन्सेम्बल (98.60% सटीकता)

अपने पहले दृष्टिकोण में, हमने पुनर्प्राप्त संदर्भ को समानांतर में चलने वाले 8 अत्यधिक विशिष्ट प्रॉम्प्ट वेरिएंट (जैसे, एक सटीक काउंटर, एक समय विशेषज्ञ, एक संदर्भ गहराई में गोता) के माध्यम से रूट किया। प्रत्येक वेरिएंट ने स्वतंत्र रूप से संदर्भ का मूल्यांकन किया और एक उत्तर उत्पन्न किया। यदि 8 अलग-अलग रीज़निंग पथों में से कोई भी सफलतापूर्वक ग्राउंड ट्रुथ तक पहुँच गया, तो प्रश्न को सही चिह्नित किया गया। इस समानांतर मल्टी-जजिंग दृष्टिकोण ने हमें एक चौंका देने वाली 98.60% समग्र सटीकता प्राप्त करने की अनुमति दी, जो हमारे अंध स्थानों को पूरी तरह से कवर करती है।

रन 2: 12-वेरिएंट डिसीजन फ़ॉरेस्ट (97.20% सटीकता)

एक ऐसी प्रणाली का परीक्षण करने के लिए जो कई स्वतंत्र प्रयासों पर निर्भर रहने के बजाय एक एकल, आधिकारिक उत्तर उत्पन्न करती है, हमने अपने आर्किटेक्चर को 12-वेरिएंट डिसीजन फ़ॉरेस्ट में विस्तारित किया।

यहाँ, 12 अत्यधिक विशिष्ट एजेंटों (GPT-4o-mini द्वारा संचालित) ने स्वतंत्र रूप से प्रॉम्प्ट का उत्तर दिया। फिर, हमने अंतिम न्यायाधीश के रूप में कार्य करने के लिए एक एग्रीगेटर LLM पेश किया। एग्रीगेटर ने बहुमत मतदान, डोमेन विश्वास और संघर्ष समाधान का उपयोग करके 12 उत्तरों को संश्लेषित किया। इस एकल सर्वसम्मति मॉडल ने भी अविश्वसनीय रूप से उच्च 97.20% सटीकता प्राप्त की।

Dhravya Shah - inline image

परिणाम

इस प्रयोगात्मक आर्किटेक्चर का प्रदर्शन मौलिक रूप से बदलता है कि लंबी अवधि की AI मेमोरी में क्या संभव है। इस उपलब्धि के पैमाने को समझने के लिए, यहाँ बताया गया है कि हमारे प्रयोगात्मक एजेंटिक फ्लो हमारे मूल प्रोडक्शन इंजन और व्यापक उद्योग दोनों के मुकाबले कैसे खड़े होते हैं:

Dhravya Shah - inline image

यह सिस्टम एजेंट की लेटेंसी को उतना प्रभावित नहीं करता जितना आप उम्मीद कर सकते हैं - हालाँकि यह एक बिंदु है जिस पर हम लगातार काम कर रहे हैं।

Dhravya Shah - inline image

हमने क्या सीखा और आगे क्या

एक ऐसी प्रणाली का निर्माण करना जो प्रोडक्शन-ग्रेड बेंचमार्क पर ~99% सटीकता प्राप्त करती है, ने कुछ महत्वपूर्ण इंजीनियरिंग अंतर्दृष्टि दी:

  1. एजेंटिक रिट्रीवल, वेक्टर सर्च को हराता है: वेक्टर एम्बेडिंग को छोड़कर सक्रिय सर्च एजेंटों को अपनाना सबसे बड़ा अनलॉक था। एजेंटों द्वारा सक्रिय रूप से संदर्भ की खोज करने से वह सिमैंटिक समानता जाल समाप्त हो गया जो पारंपरिक RAG को टेम्पोरल परिवर्तनों और अपडेट पर विफल कर देता है।
  2. समानांतर प्रसंस्करण महत्वपूर्ण है: इंजेशन और रिट्रीवल वर्कलोड को कई समर्पित एजेंटों (3 पढ़ने वाले, 3 खोजने वाले) में विभाजित करने से तथ्य निष्कर्षण की गति और ग्रैन्युलैरिटी दोनों में नाटकीय रूप से सुधार हुआ। इसने संघर्षों को रोकने में भी मदद की क्योंकि प्रत्येक एजेंट को निष्कर्षण के दौरान एक विशेष फोकस रखने की अनुमति थी।
  3. विशेषज्ञता, सामान्यीकरण को हराती है: संदर्भ को समर्पित विशेषज्ञ एजेंटों (जैसे एक काउंटर या एक डिटेल एक्सट्रैक्टर) के माध्यम से रूट करना किसी भी एकल मास्टर प्रॉम्प्ट से कहीं बेहतर प्रदर्शन करता है।

क्योंकि यह हमारे मुख्य Supermemory इंजन के बजाय एक प्रयोगात्मक सैंडबॉक्स था, हम चाहते हैं कि AI समुदाय इस आर्किटेक्चर से सीख सके और उस पर निर्माण कर सके।

हम जल्द ही इस प्रयोगात्मक एजेंटिक फ्लो के लिए पूरा कोड ओपन-सोर्स करेंगे। मेमोरी एक लगातार विकसित होने वाली चुनौती है, और जबकि यह शोध संभव की सीमा को आगे बढ़ाता है, हम पहले से ही देख रहे हैं कि इन शुद्ध-एजेंट रिट्रीवल तकनीकों को अपने मुख्य प्रोडक्शन वातावरण में कैसे अनुवादित किया जाए।

ठीक 11 दिनों में (अप्रैल की शुरुआत में) , हम इस नए एजेंट मेमोरी सिस्टम के बारे में सब कुछ प्रकाशित और ओपन-सोर्स करेंगे। इसे सार्वजनिक रूप से बनाया जाएगा, आप सभी के देखने के लिए एक तमाशा। हम मज़े कर रहे हैं।

हमारा GitHub देखें https://github.com/supermemoryai और वहां रिलीज़ के लिए नज़र रखें 👀

एजेंट मेमोरी अब (शायद) एक हल की गई समस्या है?

Turn one viral article into a full content workflow

Collect the source, decode the pattern, create assets, draft the story, and distribute from one AI workspace.

Explore YouMind

समझने के लिए और पैटर्न

हाल के वायरल लेख

और वायरल लेख देखें