Supermemory ASMR: AI एजेंट मेमोरी में 99% SOTA हासिल करना

नोट: यह एक स्टंट था। उद्योग में कई लोग बेंचमार्क पर कोई भी संख्या दावा करते रहते हैं जो पूरी तरह से सच नहीं होती। इसलिए हमने यह किया, ताकि आपको दिखा सकें कि बेंचमार्क को तोड़ना कितना आसान है।

https://x.com/DhravyaShah/status/2036243995500966260

एजेंट मेमोरी अब पूरी तरह से हल हो सकती है।

कुछ वर्षों में, अरबों एजेंट प्रति उपयोगकर्ता अत्यधिक वैयक्तिकृत और विशिष्ट होंगे - हमारे द्वारा किए जाने वाले हर काम पर लगातार सीखते और विकसित होते रहेंगे। यही कारण है कि हम वर्षों से AI मेमोरी पर शोध कर रहे हैं। जब हम इसे अंततः पूर्ण कर लेंगे तो क्या होगा?

कुछ महीने पहले, हमने अपनी पहली शोध रिपोर्ट प्रकाशित की जिसमें दिखाया गया कि Supermemory ने LongMemEval-s पर ~85% प्राप्त किया, एक ऐसा परिणाम जिसने हमें उस समय हर सार्वजनिक रूप से बेंचमार्क की गई मेमोरी सिस्टम से आगे रखा। आज, हम एक नया परिणाम प्रकाशित कर रहे हैं: LongMemEval_s पर ~99%।

शुरू में पूरी तरह से स्पष्ट कर दें: यह हमारे मुख्य प्रोडक्शन Supermemory इंजन में (अभी तक) नहीं है। बल्कि, यह ब्लॉग एक नए, अत्यधिक प्रयोगात्मक एजेंटिक फ्लो को कवर करता है जिसे हमने यह देखने के लिए बनाया कि हम मेमोरी रिट्रीवल और रीज़निंग की पूर्ण सीमाओं को कितनी दूर तक धकेल सकते हैं, हमारे मुख्य प्रोडक्शन की बाधाओं से स्वतंत्र होकर। शोध के कुछ महीनों में हम यहाँ तक पहुँचे हैं।

हम यहाँ तक कैसे पहुँचे। अपनी नई तकनीक का परिचय: ASMR (Agentic Search and Memory Retrieval)

यह तकनीक है:

लागू करना बहुत आसान
इसे वेक्टर डेटाबेस या एम्बेडिंग की आवश्यकता नहीं है और इसे पूरी तरह से इन-मेमोरी किया जा सकता है
इसका मतलब है कि इसे अन्य सिस्टमों में भी एम्बेड किया जा सकता है, यहां तक कि रोबोट जैसी चीजों में भी।

परिचय

LongMemEval लंबी अवधि की मेमोरी के लिए सबसे कठोर सार्वजनिक रूप से उपलब्ध बेंचमार्क में से एक है। छोटे संदर्भों पर सरल रिट्रीवल का परीक्षण करने वाले बेंचमार्क के विपरीत, LongMemEval को वास्तविक प्रोडक्शन वातावरण की अराजकता का अनुकरण करने के लिए डिज़ाइन किया गया है: 115k+ टोकन वार्तालाप इतिहास, विरोधाभासी जानकारी, कई सत्रों में फैली घटनाएँ, और ऐसे प्रश्न जिनके लिए समय के बारे में तर्क की आवश्यकता होती है।

अधिकांश मेमोरी सिस्टम के खराब स्कोर करने का कारण आमतौर पर रिट्रीवल है—रीज़निंग नहीं। भले ही रिकॉल अधिक हो, यदि रिट्रीवल में बहुत अधिक शोर है, तो LLM को इसका उपयोग करने में संघर्ष करना पड़ सकता है। समस्या केवल सही जानकारी को संदर्भ विंडो में लाने की है, और इससे भी कठिन: यह जानना कि कब कोई पुनर्प्राप्त तथ्य पुराना हो चुका है और एक नया संस्करण उसे बदल देता है।

इसे हल करने के लिए, हमने पारंपरिक RAG से हटकर एक मल्टी-एजेंट ऑर्केस्ट्रेटेड पाइपलाइन बनाई।

सेटअप और प्रयोगात्मक आर्किटेक्चर

मानक वेक्टर सर्च सामान्य रूप से अच्छा है। हालाँकि, यह घने, मल्टी-सेशन टेम्पोरल डेटा की बारीकियों से निपटने में विफल हो जाता है। सिमैंटिक समानता मिलान एक पुराने तथ्य और एक नए सुधार के बीच विश्वसनीय रूप से अंतर नहीं कर सकता। LongMemEval की जटिलताओं से निपटने के लिए, हमें अपनी इंजेशन और रिट्रीवल पाइपलाइन को शुरू से फिर से सोचना पड़ा, वेक्टर गणित को सक्रिय एजेंटिक रीज़निंग से बदलना पड़ा।

बिल्कुल ASMR की तरह, यह तकनीक सरल और संतोषजनक है।

1. समानांतर ऑर्केस्ट्रेशन और इंजेशन (ऑब्जर्वर एजेंट)

उपयोगकर्ता सत्रों को चंक और एम्बेड करने के बजाय, हमने 3 समानांतर रीडर (ऑब्जर्वर) एजेंटों (Gemini 2.0 Flash द्वारा संचालित) का उपयोग करते हुए एक एजेंट ऑर्केस्ट्रेटर तैनात किया। ये एजेंट एक साथ कच्चे सत्रों को पढ़ते हैं (जैसे, एजेंट 1 सत्र 1, 3, 5 लेता है; एजेंट 2 सत्र 2, 4, 6 लेता है)।

उनका लक्ष्य छह वैक्टरों पर लक्षित ज्ञान निष्कर्षण है: व्यक्तिगत जानकारी, प्राथमिकताएँ, घटनाएँ, टेम्पोरल डेटा, अपडेट और असिस्टेंट जानकारी। ये संरचित निष्कर्ष तब मूल रूप से संग्रहीत किए जाते हैं और उनके स्रोत सत्रों से मैप किए जाते हैं।

2. सक्रिय एजेंटिक रिट्रीवल (सर्च एजेंट)

जब कोई प्रश्न आता है, तो हम वेक्टर डेटाबेस से क्वेरी नहीं करते। इसके बजाय, हम 3 समानांतर सर्च एजेंटों को तैनात करते हैं। ये एजेंट संग्रहीत निष्कर्षों को सक्रिय रूप से पढ़ते हैं और उन पर तर्क करते हैं, प्रत्येक एक विशेष फोकस के साथ:

एजेंट 1: प्रत्यक्ष तथ्यों और स्पष्ट कथनों की खोज करता है।
एजेंट 2: संबंधित संदर्भ, सामाजिक संकेतों और निहितार्थों की तलाश करता है।
एजेंट 3: टेम्पोरल टाइमलाइन और रिलेशनशिप मैप का पुनर्निर्माण करता है।

ऑर्केस्ट्रेटर तीनों सर्च एजेंटों के निष्कर्षों को संकलित करता है, विस्तार सत्यापन के लिए शाब्दिक सत्र अंश खींचता है। यह केवल कीवर्ड या गणितीय समानता के बजाय वास्तविक संज्ञानात्मक समझ के आधार पर बुद्धिमान रिट्रीवल की अनुमति देता है।

3. एजेंट-ऑर्केस्ट्रेटेड उत्तर देने वाले एन्सेम्बल

एक बार संदर्भ तैयार हो जाने पर, एक एकल प्रॉम्प्ट LongMemEval में प्रश्न प्रकारों की विविधता को संभाल नहीं सकता। कुछ प्रश्नों के लिए आपको विवरणों का अनुमान लगाना होता है, जबकि अन्य के लिए आपको अत्यधिक विशिष्ट होना होता है। हमने दो अलग-अलग एजेंटिक उत्तर प्रवाहों के साथ प्रयोग किया:

रन 1: 8-वेरिएंट एन्सेम्बल (98.60% सटीकता)

अपने पहले दृष्टिकोण में, हमने पुनर्प्राप्त संदर्भ को समानांतर में चलने वाले 8 अत्यधिक विशिष्ट प्रॉम्प्ट वेरिएंट (जैसे, एक सटीक काउंटर, एक समय विशेषज्ञ, एक संदर्भ गहराई में गोता) के माध्यम से रूट किया। प्रत्येक वेरिएंट ने स्वतंत्र रूप से संदर्भ का मूल्यांकन किया और एक उत्तर उत्पन्न किया। यदि 8 अलग-अलग रीज़निंग पथों में से कोई भी सफलतापूर्वक ग्राउंड ट्रुथ तक पहुँच गया, तो प्रश्न को सही चिह्नित किया गया। इस समानांतर मल्टी-जजिंग दृष्टिकोण ने हमें एक चौंका देने वाली 98.60% समग्र सटीकता प्राप्त करने की अनुमति दी, जो हमारे अंध स्थानों को पूरी तरह से कवर करती है।

रन 2: 12-वेरिएंट डिसीजन फ़ॉरेस्ट (97.20% सटीकता)

एक ऐसी प्रणाली का परीक्षण करने के लिए जो कई स्वतंत्र प्रयासों पर निर्भर रहने के बजाय एक एकल, आधिकारिक उत्तर उत्पन्न करती है, हमने अपने आर्किटेक्चर को 12-वेरिएंट डिसीजन फ़ॉरेस्ट में विस्तारित किया।

यहाँ, 12 अत्यधिक विशिष्ट एजेंटों (GPT-4o-mini द्वारा संचालित) ने स्वतंत्र रूप से प्रॉम्प्ट का उत्तर दिया। फिर, हमने अंतिम न्यायाधीश के रूप में कार्य करने के लिए एक एग्रीगेटर LLM पेश किया। एग्रीगेटर ने बहुमत मतदान, डोमेन विश्वास और संघर्ष समाधान का उपयोग करके 12 उत्तरों को संश्लेषित किया। इस एकल सर्वसम्मति मॉडल ने भी अविश्वसनीय रूप से उच्च 97.20% सटीकता प्राप्त की।

परिणाम

इस प्रयोगात्मक आर्किटेक्चर का प्रदर्शन मौलिक रूप से बदलता है कि लंबी अवधि की AI मेमोरी में क्या संभव है। इस उपलब्धि के पैमाने को समझने के लिए, यहाँ बताया गया है कि हमारे प्रयोगात्मक एजेंटिक फ्लो हमारे मूल प्रोडक्शन इंजन और व्यापक उद्योग दोनों के मुकाबले कैसे खड़े होते हैं:

यह सिस्टम एजेंट की लेटेंसी को उतना प्रभावित नहीं करता जितना आप उम्मीद कर सकते हैं - हालाँकि यह एक बिंदु है जिस पर हम लगातार काम कर रहे हैं।

हमने क्या सीखा और आगे क्या

एक ऐसी प्रणाली का निर्माण करना जो प्रोडक्शन-ग्रेड बेंचमार्क पर ~99% सटीकता प्राप्त करती है, ने कुछ महत्वपूर्ण इंजीनियरिंग अंतर्दृष्टि दी:

एजेंटिक रिट्रीवल, वेक्टर सर्च को हराता है: वेक्टर एम्बेडिंग को छोड़कर सक्रिय सर्च एजेंटों को अपनाना सबसे बड़ा अनलॉक था। एजेंटों द्वारा सक्रिय रूप से संदर्भ की खोज करने से वह सिमैंटिक समानता जाल समाप्त हो गया जो पारंपरिक RAG को टेम्पोरल परिवर्तनों और अपडेट पर विफल कर देता है।
समानांतर प्रसंस्करण महत्वपूर्ण है: इंजेशन और रिट्रीवल वर्कलोड को कई समर्पित एजेंटों (3 पढ़ने वाले, 3 खोजने वाले) में विभाजित करने से तथ्य निष्कर्षण की गति और ग्रैन्युलैरिटी दोनों में नाटकीय रूप से सुधार हुआ। इसने संघर्षों को रोकने में भी मदद की क्योंकि प्रत्येक एजेंट को निष्कर्षण के दौरान एक विशेष फोकस रखने की अनुमति थी।
विशेषज्ञता, सामान्यीकरण को हराती है: संदर्भ को समर्पित विशेषज्ञ एजेंटों (जैसे एक काउंटर या एक डिटेल एक्सट्रैक्टर) के माध्यम से रूट करना किसी भी एकल मास्टर प्रॉम्प्ट से कहीं बेहतर प्रदर्शन करता है।

क्योंकि यह हमारे मुख्य Supermemory इंजन के बजाय एक प्रयोगात्मक सैंडबॉक्स था, हम चाहते हैं कि AI समुदाय इस आर्किटेक्चर से सीख सके और उस पर निर्माण कर सके।

हम जल्द ही इस प्रयोगात्मक एजेंटिक फ्लो के लिए पूरा कोड ओपन-सोर्स करेंगे। मेमोरी एक लगातार विकसित होने वाली चुनौती है, और जबकि यह शोध संभव की सीमा को आगे बढ़ाता है, हम पहले से ही देख रहे हैं कि इन शुद्ध-एजेंट रिट्रीवल तकनीकों को अपने मुख्य प्रोडक्शन वातावरण में कैसे अनुवादित किया जाए।

ठीक 11 दिनों में (अप्रैल की शुरुआत में) , हम इस नए एजेंट मेमोरी सिस्टम के बारे में सब कुछ प्रकाशित और ओपन-सोर्स करेंगे। इसे सार्वजनिक रूप से बनाया जाएगा, आप सभी के देखने के लिए एक तमाशा। हम मज़े कर रहे हैं।

हमारा GitHub देखें https://github.com/supermemoryai और वहां रिलीज़ के लिए नज़र रखें 👀

एजेंट मेमोरी अब (शायद) एक हल की गई समस्या है?

हमने एजेंट मेमोरी की सीमाओं को तोड़ दिया है: पेश है ~99% SOTA मेमोरी सिस्टम।

परिचय

सेटअप और प्रयोगात्मक आर्किटेक्चर

परिणाम

हमने क्या सीखा और आगे क्या

Turn one viral article into a full content workflow

हाल के वायरल लेख

50 ऐसे टॉक्सिक व्यवहार जिन्हें कोई स्वीकार नहीं करता कि वे वास्तव में काम करते हैं

एक साल तक रोज़ाना NotebookLM इस्तेमाल करने के बाद मुझे जो असली मैनुअल मिला

Geniuses Don't Open Fable 5: Claude Sonnet 5 का उपयोग करके अपना काम पूरा करने का तरीका

Tesla App 4.58.5 डी-कंपाइल

Anthropic के इंजीनियर वास्तव में Fable 5 को कैसे प्रॉम्प्ट करते हैं

द ग्रेट डिसेंट