नोट: यह एक स्टंट था। उद्योग में कई लोग बेंचमार्क पर कोई भी संख्या दावा करते रहते हैं जो पूरी तरह से सच नहीं होती। इसलिए हमने यह किया, ताकि आपको दिखा सकें कि बेंचमार्क को तोड़ना कितना आसान है।
https://x.com/DhravyaShah/status/2036243995500966260
एजेंट मेमोरी अब पूरी तरह से हल हो सकती है।
कुछ वर्षों में, अरबों एजेंट प्रति उपयोगकर्ता अत्यधिक वैयक्तिकृत और विशिष्ट होंगे - हमारे द्वारा किए जाने वाले हर काम पर लगातार सीखते और विकसित होते रहेंगे। यही कारण है कि हम वर्षों से AI मेमोरी पर शोध कर रहे हैं। जब हम इसे अंततः पूर्ण कर लेंगे तो क्या होगा?
कुछ महीने पहले, हमने अपनी पहली शोध रिपोर्ट प्रकाशित की जिसमें दिखाया गया कि Supermemory ने LongMemEval-s पर ~85% प्राप्त किया, एक ऐसा परिणाम जिसने हमें उस समय हर सार्वजनिक रूप से बेंचमार्क की गई मेमोरी सिस्टम से आगे रखा। आज, हम एक नया परिणाम प्रकाशित कर रहे हैं: LongMemEval_s पर ~99%।
शुरू में पूरी तरह से स्पष्ट कर दें: यह हमारे मुख्य प्रोडक्शन Supermemory इंजन में (अभी तक) नहीं है। बल्कि, यह ब्लॉग एक नए, अत्यधिक प्रयोगात्मक एजेंटिक फ्लो को कवर करता है जिसे हमने यह देखने के लिए बनाया कि हम मेमोरी रिट्रीवल और रीज़निंग की पूर्ण सीमाओं को कितनी दूर तक धकेल सकते हैं, हमारे मुख्य प्रोडक्शन की बाधाओं से स्वतंत्र होकर। शोध के कुछ महीनों में हम यहाँ तक पहुँचे हैं।
हम यहाँ तक कैसे पहुँचे। अपनी नई तकनीक का परिचय: ASMR (Agentic Search and Memory Retrieval)
यह तकनीक है:
- लागू करना बहुत आसान
- इसे वेक्टर डेटाबेस या एम्बेडिंग की आवश्यकता नहीं है और इसे पूरी तरह से इन-मेमोरी किया जा सकता है
- इसका मतलब है कि इसे अन्य सिस्टमों में भी एम्बेड किया जा सकता है, यहां तक कि रोबोट जैसी चीजों में भी।
परिचय
LongMemEval लंबी अवधि की मेमोरी के लिए सबसे कठोर सार्वजनिक रूप से उपलब्ध बेंचमार्क में से एक है। छोटे संदर्भों पर सरल रिट्रीवल का परीक्षण करने वाले बेंचमार्क के विपरीत, LongMemEval को वास्तविक प्रोडक्शन वातावरण की अराजकता का अनुकरण करने के लिए डिज़ाइन किया गया है: 115k+ टोकन वार्तालाप इतिहास, विरोधाभासी जानकारी, कई सत्रों में फैली घटनाएँ, और ऐसे प्रश्न जिनके लिए समय के बारे में तर्क की आवश्यकता होती है।
अधिकांश मेमोरी सिस्टम के खराब स्कोर करने का कारण आमतौर पर रिट्रीवल है—रीज़निंग नहीं। भले ही रिकॉल अधिक हो, यदि रिट्रीवल में बहुत अधिक शोर है, तो LLM को इसका उपयोग करने में संघर्ष करना पड़ सकता है। समस्या केवल सही जानकारी को संदर्भ विंडो में लाने की है, और इससे भी कठिन: यह जानना कि कब कोई पुनर्प्राप्त तथ्य पुराना हो चुका है और एक नया संस्करण उसे बदल देता है।
इसे हल करने के लिए, हमने पारंपरिक RAG से हटकर एक मल्टी-एजेंट ऑर्केस्ट्रेटेड पाइपलाइन बनाई।
सेटअप और प्रयोगात्मक आर्किटेक्चर
मानक वेक्टर सर्च सामान्य रूप से अच्छा है। हालाँकि, यह घने, मल्टी-सेशन टेम्पोरल डेटा की बारीकियों से निपटने में विफल हो जाता है। सिमैंटिक समानता मिलान एक पुराने तथ्य और एक नए सुधार के बीच विश्वसनीय रूप से अंतर नहीं कर सकता। LongMemEval की जटिलताओं से निपटने के लिए, हमें अपनी इंजेशन और रिट्रीवल पाइपलाइन को शुरू से फिर से सोचना पड़ा, वेक्टर गणित को सक्रिय एजेंटिक रीज़निंग से बदलना पड़ा।
बिल्कुल ASMR की तरह, यह तकनीक सरल और संतोषजनक है।
1. समानांतर ऑर्केस्ट्रेशन और इंजेशन (ऑब्जर्वर एजेंट)
उपयोगकर्ता सत्रों को चंक और एम्बेड करने के बजाय, हमने 3 समानांतर रीडर (ऑब्जर्वर) एजेंटों (Gemini 2.0 Flash द्वारा संचालित) का उपयोग करते हुए एक एजेंट ऑर्केस्ट्रेटर तैनात किया। ये एजेंट एक साथ कच्चे सत्रों को पढ़ते हैं (जैसे, एजेंट 1 सत्र 1, 3, 5 लेता है; एजेंट 2 सत्र 2, 4, 6 लेता है)।
उनका लक्ष्य छह वैक्टरों पर लक्षित ज्ञान निष्कर्षण है: व्यक्तिगत जानकारी, प्राथमिकताएँ, घटनाएँ, टेम्पोरल डेटा, अपडेट और असिस्टेंट जानकारी। ये संरचित निष्कर्ष तब मूल रूप से संग्रहीत किए जाते हैं और उनके स्रोत सत्रों से मैप किए जाते हैं।
2. सक्रिय एजेंटिक रिट्रीवल (सर्च एजेंट)
जब कोई प्रश्न आता है, तो हम वेक्टर डेटाबेस से क्वेरी नहीं करते। इसके बजाय, हम 3 समानांतर सर्च एजेंटों को तैनात करते हैं। ये एजेंट संग्रहीत निष्कर्षों को सक्रिय रूप से पढ़ते हैं और उन पर तर्क करते हैं, प्रत्येक एक विशेष फोकस के साथ:
- एजेंट 1: प्रत्यक्ष तथ्यों और स्पष्ट कथनों की खोज करता है।
- एजेंट 2: संबंधित संदर्भ, सामाजिक संकेतों और निहितार्थों की तलाश करता है।
- एजेंट 3: टेम्पोरल टाइमलाइन और रिलेशनशिप मैप का पुनर्निर्माण करता है।
ऑर्केस्ट्रेटर तीनों सर्च एजेंटों के निष्कर्षों को संकलित करता है, विस्तार सत्यापन के लिए शाब्दिक सत्र अंश खींचता है। यह केवल कीवर्ड या गणितीय समानता के बजाय वास्तविक संज्ञानात्मक समझ के आधार पर बुद्धिमान रिट्रीवल की अनुमति देता है।
3. एजेंट-ऑर्केस्ट्रेटेड उत्तर देने वाले एन्सेम्बल
एक बार संदर्भ तैयार हो जाने पर, एक एकल प्रॉम्प्ट LongMemEval में प्रश्न प्रकारों की विविधता को संभाल नहीं सकता। कुछ प्रश्नों के लिए आपको विवरणों का अनुमान लगाना होता है, जबकि अन्य के लिए आपको अत्यधिक विशिष्ट होना होता है। हमने दो अलग-अलग एजेंटिक उत्तर प्रवाहों के साथ प्रयोग किया:
रन 1: 8-वेरिएंट एन्सेम्बल (98.60% सटीकता)
अपने पहले दृष्टिकोण में, हमने पुनर्प्राप्त संदर्भ को समानांतर में चलने वाले 8 अत्यधिक विशिष्ट प्रॉम्प्ट वेरिएंट (जैसे, एक सटीक काउंटर, एक समय विशेषज्ञ, एक संदर्भ गहराई में गोता) के माध्यम से रूट किया। प्रत्येक वेरिएंट ने स्वतंत्र रूप से संदर्भ का मूल्यांकन किया और एक उत्तर उत्पन्न किया। यदि 8 अलग-अलग रीज़निंग पथों में से कोई भी सफलतापूर्वक ग्राउंड ट्रुथ तक पहुँच गया, तो प्रश्न को सही चिह्नित किया गया। इस समानांतर मल्टी-जजिंग दृष्टिकोण ने हमें एक चौंका देने वाली 98.60% समग्र सटीकता प्राप्त करने की अनुमति दी, जो हमारे अंध स्थानों को पूरी तरह से कवर करती है।
रन 2: 12-वेरिएंट डिसीजन फ़ॉरेस्ट (97.20% सटीकता)
एक ऐसी प्रणाली का परीक्षण करने के लिए जो कई स्वतंत्र प्रयासों पर निर्भर रहने के बजाय एक एकल, आधिकारिक उत्तर उत्पन्न करती है, हमने अपने आर्किटेक्चर को 12-वेरिएंट डिसीजन फ़ॉरेस्ट में विस्तारित किया।
यहाँ, 12 अत्यधिक विशिष्ट एजेंटों (GPT-4o-mini द्वारा संचालित) ने स्वतंत्र रूप से प्रॉम्प्ट का उत्तर दिया। फिर, हमने अंतिम न्यायाधीश के रूप में कार्य करने के लिए एक एग्रीगेटर LLM पेश किया। एग्रीगेटर ने बहुमत मतदान, डोमेन विश्वास और संघर्ष समाधान का उपयोग करके 12 उत्तरों को संश्लेषित किया। इस एकल सर्वसम्मति मॉडल ने भी अविश्वसनीय रूप से उच्च 97.20% सटीकता प्राप्त की।

परिणाम
इस प्रयोगात्मक आर्किटेक्चर का प्रदर्शन मौलिक रूप से बदलता है कि लंबी अवधि की AI मेमोरी में क्या संभव है। इस उपलब्धि के पैमाने को समझने के लिए, यहाँ बताया गया है कि हमारे प्रयोगात्मक एजेंटिक फ्लो हमारे मूल प्रोडक्शन इंजन और व्यापक उद्योग दोनों के मुकाबले कैसे खड़े होते हैं:

यह सिस्टम एजेंट की लेटेंसी को उतना प्रभावित नहीं करता जितना आप उम्मीद कर सकते हैं - हालाँकि यह एक बिंदु है जिस पर हम लगातार काम कर रहे हैं।

हमने क्या सीखा और आगे क्या
एक ऐसी प्रणाली का निर्माण करना जो प्रोडक्शन-ग्रेड बेंचमार्क पर ~99% सटीकता प्राप्त करती है, ने कुछ महत्वपूर्ण इंजीनियरिंग अंतर्दृष्टि दी:
- एजेंटिक रिट्रीवल, वेक्टर सर्च को हराता है: वेक्टर एम्बेडिंग को छोड़कर सक्रिय सर्च एजेंटों को अपनाना सबसे बड़ा अनलॉक था। एजेंटों द्वारा सक्रिय रूप से संदर्भ की खोज करने से वह सिमैंटिक समानता जाल समाप्त हो गया जो पारंपरिक RAG को टेम्पोरल परिवर्तनों और अपडेट पर विफल कर देता है।
- समानांतर प्रसंस्करण महत्वपूर्ण है: इंजेशन और रिट्रीवल वर्कलोड को कई समर्पित एजेंटों (3 पढ़ने वाले, 3 खोजने वाले) में विभाजित करने से तथ्य निष्कर्षण की गति और ग्रैन्युलैरिटी दोनों में नाटकीय रूप से सुधार हुआ। इसने संघर्षों को रोकने में भी मदद की क्योंकि प्रत्येक एजेंट को निष्कर्षण के दौरान एक विशेष फोकस रखने की अनुमति थी।
- विशेषज्ञता, सामान्यीकरण को हराती है: संदर्भ को समर्पित विशेषज्ञ एजेंटों (जैसे एक काउंटर या एक डिटेल एक्सट्रैक्टर) के माध्यम से रूट करना किसी भी एकल मास्टर प्रॉम्प्ट से कहीं बेहतर प्रदर्शन करता है।
क्योंकि यह हमारे मुख्य Supermemory इंजन के बजाय एक प्रयोगात्मक सैंडबॉक्स था, हम चाहते हैं कि AI समुदाय इस आर्किटेक्चर से सीख सके और उस पर निर्माण कर सके।
हम जल्द ही इस प्रयोगात्मक एजेंटिक फ्लो के लिए पूरा कोड ओपन-सोर्स करेंगे। मेमोरी एक लगातार विकसित होने वाली चुनौती है, और जबकि यह शोध संभव की सीमा को आगे बढ़ाता है, हम पहले से ही देख रहे हैं कि इन शुद्ध-एजेंट रिट्रीवल तकनीकों को अपने मुख्य प्रोडक्शन वातावरण में कैसे अनुवादित किया जाए।
ठीक 11 दिनों में (अप्रैल की शुरुआत में) , हम इस नए एजेंट मेमोरी सिस्टम के बारे में सब कुछ प्रकाशित और ओपन-सोर्स करेंगे। इसे सार्वजनिक रूप से बनाया जाएगा, आप सभी के देखने के लिए एक तमाशा। हम मज़े कर रहे हैं।
हमारा GitHub देखें https://github.com/supermemoryai और वहां रिलीज़ के लिए नज़र रखें 👀
एजेंट मेमोरी अब (शायद) एक हल की गई समस्या है?





