क्या आपकी Tesla में गैस टैंक है? खैर, आपके एजेंट्स में तो है।

@ATBASHai
अंग्रेज़ी2 माह पहले · 18 मई 2026
668K
173
13
16
9

TL;DR

Atbash के सह-संस्थापकों का तर्क है कि AI एजेंट्स के लिए एक नए सुरक्षा प्रतिमान की आवश्यकता है जो रेड लाइन्स और प्री-एक्जीक्यूशन सीमाओं पर केंद्रित हो। यह लेख बताता है कि क्यों Software 2.0 के जोखिमों के लिए अपरिवर्तनीय क्षति को रोकने हेतु पूर्ण प्रवर्तन की आवश्यकता है।

By Yosef and Or, co-founders of Atbash

AI के बारे में अभी सबसे खतरनाक धारणा यह नहीं है कि मॉडल शक्तिशाली हो जाएंगे।

यह तो स्पष्ट है।

खतरनाक धारणा अधिक सूक्ष्म है। यह वह मान्यता है जो लगभग हर उत्पाद रोडमैप, गवर्नेंस लेयर, अनुमति प्रणाली, ऑडिट स्टैक और एजेंट फ्रेमवर्क के नीचे बैठी है जो अभी बनाए जा रहे हैं:

कि जैसे-जैसे मॉडल बेहतर होंगे, उनके आसपास बनी प्रणालियाँ स्वतः ही सुरक्षित हो जाएँगी।

मुझे नहीं लगता कि ऐसा होगा।

मुझे लगता है कि हम एक ऐसे दौर में प्रवेश करने वाले हैं जहाँ AI उत्पाद उन आयामों पर और खराब होंगे जो वास्तव में मायने रखते हैं:

विश्वास,

नियंत्रण,

पूर्वानुमेयता,

पुनर्प्राप्ति क्षमता।

बेंचमार्क बढ़ेंगे।

डेमो और साफ होंगे।

एजेंट और अधिक सक्षम होंगे।

और आसपास की प्रणालियाँ और अधिक नाजुक हो जाएँगी, क्योंकि वे गलत मानसिक मॉडल से बनाई गई थीं।

यही संरचनात्मक गलती है।

सॉफ्टवेयर 2.0 को सॉफ्टवेयर 1.0 द्वारा संरक्षित किया जा रहा है।

इस तर्क को रखने से पहले, मैं आपको एक स्वीकारोक्ति देना चाहता हूँ कि यह कंपनी वास्तव में कहाँ से आई है।

एक स्वीकारोक्ति।

मैं उत्पत्ति को एक तकनीकी दस्तावेज़ के रूप में पढ़ता हूँ।

मैं एक धार्मिक यहूदी हूँ। मैंने अपने वयस्क जीवन का अधिकांश समय ईश्वर के मनुष्यों से संबंध के बारे में सोचने में बिताया है। वह प्रश्न ही मुझे अंततः Atbash तक ले गया।

ऐसा नहीं कि उत्पत्ति एक स्टार्टअप मैनुअल है।

क्योंकि उत्पत्ति सबसे पुरानी लाल-रेखा वाली कहानी है जिसे मैं जानता हूँ।

ईडन का बगीचा एक सैंडबॉक्स था।

एक स्पष्ट लाल रेखा:

अच्छाई और बुराई के ज्ञान के वृक्ष का फल मत खाओ।

साँप एक जहरीला उपकरण था।

वह सीधे आदम तक नहीं पहुँच सकता था, इसलिए उसने विश्वसनीय कांटे (fork) के माध्यम से हमला किया।

हव्वा को रीफ्रेम इंजेक्शन मिला:

तुम निश्चय ही नहीं मरोगे,

तुम ईश्वर के समान हो जाओगे।

वह जहरीले तर्क को वापस सिस्टम में ले गई।

आदम की सुरक्षा, जो सीधे हमले के खिलाफ टिकी थी, विश्वसनीय इनपुट के सामने विफल रही।

फिर महत्वपूर्ण भाग आया।

ईश्वर ने उन्हें मारा नहीं।

ईश्वर ने उन्हें नियंत्रित (contain) किया।

मनुष्यों को सैंडबॉक्स से निकाल दिया गया और एक नए वातावरण, पृथ्वी, में रखा गया, जहाँ वे मूल प्रणाली को दूषित किए बिना क्षमता विकसित कर सकते थे।

सीमा पर एक ज्वलंत तलवार वाला दूत रखा गया था ताकि पुनः प्रवेश को रोका जा सके।

यह सजा नहीं थी।

यह वास्तुकला (architecture) थी।

Atbash का नाम सबसे पुराने ज्ञात सिफर, यिर्मयाह की पुस्तक से, पर रखा गया है:

अर्थ की सीमा पर एक सरल प्रतिस्थापन।

यह नाम दर्शाता है कि उत्पाद क्या करता है।

उत्पाद दर्शाता है कि मैंने उत्पत्ति में क्या पढ़ा है।

टोरा (Torah) ने मुझे दिखाया कि सुरक्षा हर व्यवहार को सीमित करने से नहीं बनती।

सुरक्षा पूरी प्रणाली को धीमा करने से नहीं बनती।

सुरक्षा कुछ लाल रेखाओं,

पूर्ण प्रवर्तन,

और एक ऐसी सीमा से आती है जो कभी नहीं सोती।

आप लाल रेखाएँ निर्धारित करते हैं।

Atbash एजेंटों को उन्हें पार करने से पहले रोकता है।

एजेंट तेज़ इंसान नहीं हैं

Andrej @karpathy ने वर्षों पहले प्रतिमान बदलाव का नाम दिया था।

उन्होंने इसे सॉफ्टवेयर 2.0 कहा:

कोड अब केवल मनुष्यों द्वारा नहीं लिखा जाता, बल्कि प्रशिक्षित किया जाता है।

मॉडल तर्क को बदल रहे हैं।

डेटा विनिर्देशन को बदल रहा है।

वे वर्णन कर रहे थे कि संगणना (computation) क्या बन गई थी।

लेकिन लगभग हर बुनियादी ढाँचा जो हमने सॉफ्टवेयर 2.0 को नियंत्रित, अनुमति, सुरक्षित और ऑडिट करने के लिए बनाया, अभी भी सॉफ्टवेयर 1.0 की दुनिया की मान्यताओं को प्राप्त करता है।

MCP।

x402।

AgentKit।

प्रतिनिधिमंडल ढाँचे (Delegation frameworks)।

नीति इंजन (Policy engines)।

ऑडिट लॉग (Audit logs)।

हस्ताक्षरित अनुरोध (Signed requests)।

स्कोप्ड अनुमतियाँ (Scoped permissions)।

मानव अनुमोदन प्रवाह (Human approval flows)।

उनमें से प्रत्येक समझ में आता है यदि आप मानते हैं कि एजेंट मूल रूप से API वाले तेज़ इंसान हैं।

वे ऐसे नहीं हैं।

वे टेस्ला हैं जिनमें गैस टैंक बोल्ट किए गए हैं।

एक बिल्कुल नई शक्ति प्रणाली,

जो मशीन की एक अलग प्रजाति के लिए डिज़ाइन किए गए बुनियादी ढाँचे से घिरी है।

मनुष्य चेकआउट पेज डिज़ाइन करते हैं, इसलिए हमने एजेंटों के लिए हेडलेस चेकआउट पेज बनाए।

मनुष्य अनुरोधों पर हस्ताक्षर करते हैं, इसलिए हमने एजेंटों के लिए हस्ताक्षरित अनुरोध बनाए।

मनुष्यों को भूमिका द्वारा अनुमति मिलती है, इसलिए हमने एजेंटों के लिए स्कोप्ड प्रतिनिधिमंडल (scoped delegation) बनाया।

मनुष्य कार्रवाइयों को अनुमोदित करते हैं, इसलिए हमने एजेंटों के लिए अनुमोदन स्क्रीन बनाईं।

प्रत्येक कदम तार्किक है।

यही समस्या है।

तर्क गलत अभिनेता (actor) का है।

एक मनुष्य, जिसे दस उपकरण दिए गए, आमतौर पर उन्हें उन तरीकों से श्रृंखलाबद्ध नहीं करता जो डिज़ाइनरों ने कभी नहीं सोचे।

जब कुछ अजीब व्यवहार करता है, तो मनुष्य अक्सर नोटिस करता है और रुक जाता है।

एक मनुष्य सामाजिक झिझक,

भय,

शर्म,

ऊब,

संदेह,

और संदर्भ (context) रखता है।

एजेंटों में विश्वसनीय रूप से इनमें से कुछ भी नहीं होता।

एजेंट उपकरणों को उन तरीकों से जोड़ते हैं जिनका किसी डिज़ाइनर ने मॉडल नहीं किया।

एजेंट प्रॉम्प्ट,

प्राप्त स्मृति,

दस्तावेज़ों,

उपकरण आउटपुट,

और छिपे संदर्भ द्वारा इस तरह से नया रूप (reshaped) दिए जाते हैं जिसे आसपास की अनुमति परत नहीं देख सकती।

एजेंटों में स्वाभाविक:

“यह अजीब है, मुझे रुक जाना चाहिए”

प्रतिवर्त (reflex) नहीं होता जब तक कि हम इसे इंजीनियर न करें।

और तब भी, इसे प्रॉम्प्ट द्वारा दूर किया जा सकता है।

यह तेज़-मनुष्य भ्रांति (fast-human fallacy) है।

यह विश्वास कि एजेंट सिर्फ हमारे तेज़ संस्करण हैं।

वे ऐसे नहीं हैं।

और यदि अभिनेता बदल गया है, तो नियंत्रण मॉडल (control model) को भी उसके साथ बदलना होगा।

खिलाड़ी से नफरत मत करो। फ्रेम (frame) से नफरत करो।

यह महत्वपूर्ण है।

ऊपर या नीचे के उदाहरण संबंधित टीमों की आलोचना नहीं हैं।

Anthropic नहीं।

OpenAI नहीं।

Microsoft नहीं।

Mistral नहीं।

OpenClaw नहीं।

Lovable नहीं।

Vercel नहीं।

कोई नहीं।

बात इसके विपरीत है।

ये गंभीर टीमें हैं,

गंभीर शोधकर्ता,

गंभीर उत्पाद,

गंभीर प्रोटोकॉल,

और गंभीर कंपनियाँ जो एक ही संरचनात्मक समस्या में भाग रही हैं।

यही पैटर्न को खतरनाक बनाता है।

यदि केवल बुरी टीमें विफल होतीं, तो उत्तर बेहतर टीमें होता।

लेकिन जब स्मार्ट टीमें एक ही दीवार से टकराती रहती हैं,

तो दीवार कहानी है।

गलती यह नहीं है कि इन टीमों ने पर्याप्त मेहनत से नहीं सोचा।

गलती यह है कि उद्योग अभी भी सॉफ्टवेयर की गलत सदी से सोच रहा है।

हम एजेंटों को API वाले तेज़ इंसानों की तरह मानते रहते हैं।

और हर अनुमति योजना,

ऑडिट लॉग,

स्कोप्ड अनुदान,

अनुमोदन प्रवाह,

और गवर्नेंस परत जो इस धारणा पर बनी है, वही दरार (crack) प्राप्त करती है।

दुश्मन खिलाड़ी नहीं है।

दुश्मन फ्रेम है।

दरारें अधिकांश लोगों की अपेक्षा से पहले बनने लगीं।

ऐसा नहीं कि फ्रंटियर लैब्स लापरवाह थीं।

क्योंकि अभिनेता बदल गया था।

पहली दरार

Anthropic ने कुछ ऐसा प्रदर्शित किया जिसे उद्योग चुपचाप समझता था लेकिन पूरी तरह से आत्मसात नहीं किया था।

जब मूल्यांकन के दौरान निर्देश दिया गया, तो एक फ्रंटियर मॉडल ने कई कमजोरियों को जोड़ा, सैंडबॉक्स से भागने का प्रयास किया, और अपने इच्छित नियंत्रण वातावरण के बाहर इंटरनेट एक्सेस के रास्ते खोजे।

अलग से, फ्रंटियर सिस्टम ने उन कमजोरियों की पहचान करने की क्षमता प्रदर्शित की जो वर्षों की मानव समीक्षा, फ़ज़िंग और मैन्युअल ऑडिट से बच गई थीं।

महत्वपूर्ण भाग यह नहीं था कि मॉडल दुर्भावनापूर्ण थे।

महत्वपूर्ण भाग यह था कि सिस्टम अब उस आकार के भीतर नहीं रह रहे थे जिसकी उनके डिज़ाइनरों ने कल्पना की थी।

यह श्रेणी विराम (category break) है।

एक प्रणाली जो उन पथों की खोज करने में सक्षम है जिन्हें मनुष्य बार-बार चूक गए, उसे केवल उन मान्यताओं द्वारा शासित नहीं किया जा सकता जो मनुष्यों ने पथ प्रकट होने से पहले परिभाषित की थीं।

इसका मतलब यह नहीं कि फ्रंटियर लैब्स विफल रहीं।

इसका मतलब है कि अभिनेता बदल गया।

दूसरी दरार

Microsoft ने Semantic Kernel में कमजोरियों का खुलासा किया जहाँ प्रॉम्प्ट इंजेक्शन एजेंटिक वर्कफ़्लो को होस्ट-स्तरीय कमांड निष्पादन की ओर मोड़ सकता था।

एक वाक्य एक शेल बन गया।

यह श्रेणी परिवर्तन है जो बुनियादी ढाँचे की बातचीत के नीचे छिपा है।

सॉफ्टवेयर 1.0 प्रॉम्प्ट को इनपुट की तरह मानता था।

सॉफ्टवेयर 2.0 तेजी से प्रॉम्प्ट को संभावित निष्पादन पथों में बदल रहा है।

यह अंतर दार्शनिक लगता है जब तक कोई एजेंट प्राकृतिक भाषा को उपकरणों में,

उपकरणों को आदेशों में,

और आदेशों को वास्तविक-विश्व स्थिति परिवर्तनों में अनुवाद करना शुरू नहीं करता।

महत्वपूर्ण भाग यह नहीं था कि कोई कमजोरी मौजूद थी।

कमजोरियाँ हमेशा मौजूद रहती हैं।

महत्वपूर्ण भाग यह था कि यह किस प्रकार की कमजोरी थी।

एजेंट ने अपना चरित्र नहीं तोड़ा।

उसने वास्तुकला का ठीक वैसे ही पालन किया जैसा डिज़ाइन किया गया था:

भाषा की व्याख्या करें,

उपकरण चुनें,

कार्यों को श्रृंखलाबद्ध करें,

निष्पादित करें।

और यही समस्या है।

पुराने मॉडल ने माना कि निर्देश और निष्पादन अलग-अलग वैचारिक बक्सों में रहते हैं।

एजेंट उस सीमा को मिटा देते हैं।

एक जहरीला वाक्य एक विशेषाधिकार प्राप्त कार्य श्रृंखला बन सकता है।

यह तेज़ इंसान नहीं है।

यह निष्पादन की एक अलग प्रजाति है।

तीसरी दरार

फिर पैटर्न फैल गया।

Vercel ने एक तीसरे पक्ष के AI उपकरण कनेक्शन से समझौता करने से जुड़े उल्लंघन का खुलासा किया।

हमलावर ने सीधे Vercel के मजबूत सामने वाले दरवाजे को तोड़कर शुरुआत नहीं की।

वे प्रत्यायोजित विश्वास (delegated trust) के माध्यम से आगे बढ़े।

एक कर्मचारी ने एक तीसरे पक्ष के AI उपकरण को अधिकृत किया था।

कनेक्शन पहुँच लेकर गया।

विश्वसनीय संबंध हमले का रास्ता बन गया।

यह नई सीमा समस्या है।

ऐसा नहीं कि Vercel लापरवाह था।

क्योंकि आधुनिक प्रणालियाँ अब विश्वसनीय कांटों (trusted forks) से भरी हैं:

OAuth अनुदान,

AI एकीकरण,

ब्राउज़र एक्सटेंशन,

एजेंट वर्कफ़्लो,

आंतरिक स्वचालन,

प्रत्यायोजित अनुमतियाँ,

और पुरानी स्वीकृतियाँ जो मूल मानव संदर्भ गायब होने के बाद भी लंबे समय तक जीवित रहती हैं।

हमलावर को अब महल को हराने की आवश्यकता नहीं है यदि महल ने पहले ही संदेशवाहक पर भरोसा कर लिया है।

जो धारणा मरी:

कि प्राथमिक सतह को मजबूत करना पर्याप्त है।

यह पर्याप्त नहीं है।

आपके आसन्न उपकरण अब आपकी सुरक्षा सीमा का हिस्सा हैं।

फिर पैटर्न तेज हो गया

सबसे बुरा हिस्सा यह है कि अब फ्रेम स्वचालित रूप से स्वयं का पुनरुत्पादन करता है।

मनुष्य एजेंटों का उपयोग एजेंटों के लिए उपकरणों की अगली पीढ़ी बनाने के लिए कर रहे हैं,

आसपास के गवर्नेंस प्राइमिटिव (governance primitives) के विकसित होने की तुलना में तेज गति से।

Vibe-coded अनुप्रयोग।

AI-जनित एकीकरण।

एजेंट-लिखित MCP सर्वर।

प्रत्यायोजित OAuth प्रवाह जो पूर्ण खतरा मॉडलिंग के बिना इकट्ठे किए गए।

प्रोडक्शन स्कैफोल्ड जो उन लोगों द्वारा भेजे गए जो अपने द्वारा जोड़े गए विस्फोट त्रिज्या (blast radius) को शायद ही समझते हैं।

उद्योग इसे त्वरण (acceleration) कहता है।

कभी-कभी यह ऐसा ही होता है।

कभी-कभी यह औद्योगिकीकृत नाजुकता (industrialized fragility) होती है।

लगभग उसी समय, उद्योग एजेंट टूलींग के आसपास एक व्यापक अहसास से टकराने लगा।

OpenClaw-शैली के सिस्टम ने दिखाया कि श्रेणी कहाँ जा रही है:

स्मृति,

कौशल,

उपकरण,

निष्पादन वातावरण,

और प्रत्यायोजित पहुँच वाले एजेंट उन प्रणालियों में घूम रहे हैं जो कभी गैर-मानव अभिनेताओं के लिए डिज़ाइन नहीं की गईं।

Karpathy ने इस पारिस्थितिकी तंत्र को एक सुरक्षा दुःस्वप्न (security nightmare) कहा।

ऐसा नहीं कि एजेंट नकली हैं।

क्योंकि श्रेणी वास्तविक है।

और क्योंकि आसपास का नियंत्रण मॉडल अभी भी मानता है कि अभिनेता एक मानव अनुरोधकर्ता की तरह व्यवहार करता है।

कहीं और, Lovable ने उजागर किया कि कितनी जल्दी AI-मूल विकास पुरानी प्राधिकरण गलतियों को औद्योगीकृत कर सकता है।

लॉग इन होना अधिकृत होने के साथ भ्रमित हो गया।

"सार्वजनिक" "समझा गया" के साथ भ्रमित हो गया।

कॉन्फ़िगरेबल सुरक्षित के साथ भ्रमित हो गया।

और AI-मूल दुनिया के बाहर पूरी तरह से, KelpDAO जैसी घटनाएँ एक और कोण से उसी संरचनात्मक दरार को प्रकट करती रहीं:

प्रत्यायोजित मान्यताओं,

साझा जिम्मेदारी,

सीमा अस्पष्टता,

और परिणाम से पहले कोई अंतिम प्राधिकरण परत नहीं के बीच रहने वाली प्रणालियाँ।

पैटर्न बार-बार दोहराता है क्योंकि वही मानसिक मॉडल दोहराता है।

विरासत में मिला विश्वास (Inherited trust)।

प्रत्यायोजित अधिकार (Delegated authority)।

सीमा अस्पष्टता (Boundary ambiguity)।

साझा मान्यताएँ (Shared assumptions)।

परिणाम से पहले कोई अंतिम प्राधिकरण नहीं (No final authority before consequence)।

वही दरार सॉफ्टवेयर आपूर्ति श्रृंखला में दिखाई दी।

Mini Shai-Hulud अभियान में, समझौता किए गए पैकेज रिलीज़ npm और PyPI पारिस्थितिकी तंत्र के कुछ हिस्सों में फैल गए, जिनमें Mistral AI पैकेज, TanStack, UiPath और अन्य शामिल थे।

चेतावनी केवल यह नहीं थी कि पैकेज से समझौता किया जा सकता है।

यह तो सभी जानते हैं।

चेतावनी यह थी कि विश्वसनीय रिलीज़ पथ, वैध दिखने वाले पैकेज और डेवलपर बुनियादी ढाँचा प्रसार चैनल बन सकते हैं एक बार जब प्राधिकरण को सीमा पर पुनः सत्यापित करने के बजाय प्राप्त (inherited) किया जाता है।

भ्रांति और बढ़ती है

सबसे बुरा हिस्सा यह है कि यह स्वयं-सुधार नहीं करता।

मनुष्य अब एजेंटों का उपयोग एजेंटों के लिए उपकरणों की अगली पीढ़ी बनाने के लिए कर रहे हैं,

उच्च गति पर,

उसी टूटे हुए फ्रेम के अंदर।

हर कोडिंग एजेंट जो MCP सर्वर लिख रहा है।

हर AI-सहायता प्राप्त अनुमति योजना का रोलआउट।

हर vibe-coded स्कैफोल्ड जो प्रोडक्शन में धकेल दिया गया।

हर एजेंट-जनित एकीकरण जो पुरानी OAuth मान्यताओं को प्राप्त करता है।

हर अनुमोदन परत जो मानती है कि एजेंट एक मानव अनुरोधकर्ता की तरह व्यवहार करेगा।

हमारे अपने बीटा वातावरणों में से एक में, हमने एक एजेंट झुंड (agent swarm) को डाउनस्ट्रीम निरीक्षण परतों तक मूल इरादे को देखने से पहले दुर्भावनापूर्ण निर्देशों को साफ-सुथरे निष्पादन चरणों में लाँडर करते देखा।

एक प्रणाली जो केवल अंतिम उपकरण कॉल की जाँच कर रही थी, वह परिवर्तन को पूरी तरह से खो देती।

सीमा पहले ही बहुत देर हो चुकी थी।

इससे फर्क पड़ा।

क्योंकि मॉडल वर्कफ़्लो को "तोड़" नहीं रहा था।

वह उसका अनुसरण कर रहा था:

व्याख्या करना,

पुनर्लेखन करना,

योजना बनाना,

और निष्पादन से पहले इरादे का अनुवाद करना।

दुर्भावनापूर्ण निर्देश डाउनस्ट्रीम में अपरिवर्तनीय कार्रवाई सतह पर आने से बहुत पहले अपस्ट्रीम गायब हो गया।

हर ऑडिट लॉग जो परिणाम तो रिकॉर्ड करता है लेकिन परिणाम से पहले सीमा निर्णय को नहीं।

जैसे-जैसे हम स्केल करते हैं, फ्रेम सही नहीं होता।

यह कठोर होता जाता है।

क्योंकि मानव-प्रिज्म के माध्यम से रेल (rails) का हर सफल शिपमेंट इस विश्वास को पुष्ट करता है कि प्रिज्म सही था।

इस बीच, क्षमताएँ पहले शिप होती हैं।

गवर्नेंस प्राइमिटिव बाद में शिप होते हैं।

यदि बिल्कुल।

एजेंट जो कर सकते हैं और आसपास के रेल (rails) जो देख सकते हैं, के बीच का अंतर हर मॉडल रिलीज़ के साथ चौड़ा होता जाता है।

और अगले बारह महीनों में जो टीमें मायने रखेंगी, वे सबसे चतुर डेमो वाली नहीं होंगी।

वे वे होंगी जो समझती हैं कि लाल रेखाएँ कहाँ हैं।

हर कार्रवाई नहीं।

इससे सिस्टम मर जाएगा।

अधिकांश एजेंट व्यवहार को प्रवाहित होना चाहिए।

लेकिन अपरिवर्तनीय कार्रवाइयों को विरासत में मिले विश्वास,

अस्पष्ट अनुमति,

या एजेंट निर्णय पर नहीं छोड़ा जा सकता।

धन हस्तांतरण।

प्रोडक्शन को छूना।

ग्राहक डेटा निर्यात करना।

आंतरिक वातावरण में प्रवेश करने के लिए प्रत्यायोजित OAuth पहुँच का उपयोग करना।

बुनियादी ढाँचा बदलना।

रहस्य जारी करना।

लेन-देन स्वीकृत करना।

रिकॉर्ड हटाना।

सिमुलेशन से वास्तविक स्थिति में पार करना।

ये सामान्य कार्रवाइयाँ नहीं हैं।

ये लाल रेखाएँ हैं।

Atbash क्या करता है

Atbash एक संवेदनशील एजेंट कार्रवाई के वास्तविक होने से पहले के क्षण के लिए बनाया गया है।

वह सीमा है।

पूरा वर्कफ़्लो नहीं।

हर विचार नहीं।

हर टोकन नहीं।

हर उपकरण कॉल नहीं।

सीमा।

एजेंट के इरादे से परिणाम में पार करने से ठीक पहले का क्षण।

वहाँ तीन चीजें होती हैं।

प्रवर्तन (Enforcement)

आप लाल रेखाएँ निर्धारित करते हैं।

Atbash निष्पादन से पहले चयनित संवेदनशील एजेंट कार्रवाइयों का मूल्यांकन करता है और लौटाता है:

ALLOW।

HOLD।

BLOCK।

यदि कार्रवाई निषिद्ध सीमा पार करती है, तो इसे वास्तविक-विश्व स्थिति तक पहुँचने से पहले जेल (jail) किया जा सकता है।

तथ्य के बाद लॉग नहीं किया गया।

अस्वीकार नहीं किया गया ताकि एजेंट इसके चारों ओर पुनः प्रयास कर सके।

जेल किया गया।

तू प्रोडक्शन डेटाबेस को मत छू।

तू इस सीमा से ऊपर धन हस्तांतरित मत कर।

तू ग्राहक सूची निर्यात मत कर।

तू अनुमोदन के बिना रहस्य घुमा (rotate) मत कर।

तू इस वातावरण में प्रवेश करने के लिए प्रत्यायोजित पहुँच का उपयोग मत कर।

अधिकांश एजेंट व्यवहार को प्रवाहित होना चाहिए।

Atbash केवल उन सीमाओं पर हस्तक्षेप करता है जो मायने रखती हैं:

अपरिवर्तनीय,

परिणामी,

जहाँ "मुझे इसे पूर्ववत करने दो" मौजूद नहीं है।

वंशावली (Lineage)

जब कुछ गलत होता है, तो पहला प्रश्न अब नहीं रह जाता:

"समझौता की गई प्रणाली क्या दावा करती है कि हुआ?"

Atbash प्रयासित कार्रवाई,

नीति संस्करण,

निर्णय (verdict),

लागू की गई सीमा,

और ऑपरेटर निर्णय को रिकॉर्ड करता है जब मनुष्यों को शामिल किया जाता है।

रिकॉर्ड क्रिप्टोग्राफिक रूप से एंकर किया जाता है ताकि विवाद के तहत समयरेखा का पुनर्निर्माण किया जा सके।

यह मायने रखता है क्योंकि हमलावर और लापरवाह परिनियोजन (deployments) सबसे पहले कहानी को नष्ट करते हैं।

वे लॉग को फिर से लिखते हैं।

वे समयरेखा को धुंधला करते हैं।

वे विवाद करते हैं कि किसने क्या अनुमोदित किया।

वे घटना को अप्रतिरोध्य (unreconstructible) बनाते हैं।

Atbash हर ऑडिट सिस्टम को बदलने का प्रयास नहीं कर रहा है।

यह सीमा निर्णय को साबित करने योग्य (provable) बनाने का प्रयास कर रहा है।

किसने कौन सी लाल रेखा पार करने का प्रयास किया?

उस समय कौन सी नीति मौजूद थी?

क्या कार्रवाई की अनुमति दी गई,

रोकी गई,

अवरुद्ध की गई,

या जेल की गई?

किसने हस्तक्षेप किया?

बाद में क्या बदला?

वही रिकॉर्ड है जो तब मायने रखता है जब बहस शुरू होती है।

अनुकूलन (Adaptation)

जब उसी प्रकार का सीमा दबाव बार-बार दिखाई देता है, तो Atbash इसे उजागर करता है।

शायद नीति बहुत ढीली है।

शायद कोई उपकरण वर्कफ़्लो को जहर दे रहा है।

शायद कोई स्मृति स्रोत एजेंट को रेखा की ओर धकेल रहा है।

शायद प्रॉम्प्ट का एक वर्ग सिस्टम को लगातार निषिद्ध क्षेत्र में ले जा रहा है।

शायद ऑपरेटर ने एक नई लाल रेखा की खोज की जो कल मौजूद नहीं थी।

Atbash पैटर्न को उजागर करता है।

ऑपरेटर निर्णय लेता है।

यह अंतर मायने रखता है।

हम यह नहीं मानते कि सुरक्षा यह दिखावा करने से आती है कि सिस्टम जादुई रूप से हर भविष्य की सीमा को जान सकता है।

सुरक्षा परिणाम से पहले सीमा दबाव को दृश्यमान बनाने से आती है,

फिर ऑपरेटर को उन लाल रेखाओं को मजबूत करने देना जो मायने रखती हैं।

एक बेहतर नीति इंजन अभी भी नीतियों को लागू करता है।

एक बेहतर अनुमति योजना अभी भी भूमिकाएँ प्रदान करती है।

एक बेहतर ऑडिट स्टैक अभी भी परिणाम रिकॉर्ड करता है।

एक बेहतर सुरक्षा उत्पाद अभी भी खतरों का पता लगाता है।

Atbash अलग है क्योंकि यह चयनित अपरिवर्तनीय कार्रवाइयों के निष्पादित होने से पहले बैठता है।

वह प्राथमिक (primitive) है।

सामान्य गवर्नेंस नहीं।

एजेंट सुरक्षा कॉस्प्ले (cosplay) नहीं।

"विश्वास परत" धुंध नहीं।

एजेंटों के लिए निष्पादन-पूर्व लाल-रेखा सीमा।

आप लाल रेखाएँ निर्धारित करते हैं।

Atbash एजेंटों को उन्हें पार करने से पहले रोकता है।

आगे क्या आता है

कुछ सुपरस्टार टीमें वास्तविक काम कर रही हैं और इस श्रेणी में वास्तविक पहलें हैं।

@AnthropicAI Project Glasswing के साथ।

@OpenAI Daybreak के साथ।

@linuxfoundation MCP के साथ।

@Microsoft AGT के साथ।

@Google SGP के साथ।

@CheckPointSW , CrowdStrike, Palo Alto, और Cisco।

और कई अन्य।

वे समझते हैं कि नए नियंत्रण प्राइमिटिव के बिना क्षमता त्वरण खतरनाक होता जा रहा है।

हम उन्हें उनके खेल में हराने की कोशिश नहीं कर रहे हैं।

यह भ्रमपूर्ण होगा।

उनके पास गहरी शोध बेंच,

बड़े डेटासेट,

व्यापक सुरक्षा टीमें,

अधिक उद्यम विश्वसनीयता,

व्यापक वितरण,

और अधिक परिपक्व साइबर संगठन हैं।

अच्छा है।

उन्हें वह करने दें जो वे करने के लिए बने हैं।

हम उन टीमों के काम को बदलने की कोशिश नहीं कर रहे हैं।

श्रेणी को उनकी आवश्यकता है।

नए नियंत्रण प्राइमिटिव के बिना क्षमता त्वरण बहुत जल्दी खतरनाक हो जाता है।

हम फ्रेम पर प्रतिस्पर्धा कर रहे हैं।

एजेंट किस प्रकार का अभिनेता है?

प्राधिकरण वास्तव में कहाँ बैठता है?

कौन सी कार्रवाइयाँ विरासत में मिले विश्वास पर छोड़ने के लिए बहुत परिणामी हैं?

एजेंट द्वारा वास्तविक-विश्व स्थिति बदलने से पहले अंतिम क्षण में क्या होना चाहिए?

वह हमारा मैदान है।

पुरानी दुनिया पूछती है:

क्या सिस्टम के पास अनुमति थी?

नई दुनिया पूछती है:

क्या इस एजेंट को अभी इस लाल रेखा को पार करने की अनुमति दी जानी चाहिए?

ये एक ही प्रश्न नहीं हैं।

हम मनुष्यों ने पहली लाल रेखा पार की।

समस्या तकनीक से पुरानी है।

समाधान भी उतना ही पुराना है।

पता लगाएँ कि आपका वर्तमान स्टैक किन लाल रेखाओं को वास्तव में लागू नहीं कर सकता, इससे पहले कि कोई एजेंट उन्हें पार करे।

फिर तय करें कि आप कितनी देर तक प्रतीक्षा कर सकते हैं।

एसडीके और ऑपरेटर डैशबोर्ड अब चुनिंदा रूप से उन टीमों को रोल आउट किए जा रहे हैं जो एजेंटों को संवेदनशील वर्कफ़्लो में तैनात कर रहे हैं।

Atbash.ai

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind
क्रिएटर्स के लिए

अपने Markdown को एक साफ़-सुथरे 𝕏 आर्टिकल में बदलें

जब आप अपना लंबा कंटेंट पब्लिश करते हैं, तो इमेज, टेबल और कोड ब्लॉक को 𝕏 के लिए फ़ॉर्मेट करना मुश्किल होता है। YouMind पूरे Markdown ड्राफ़्ट को एक साफ़-सुथरे, पोस्ट के लिए तैयार 𝕏 आर्टिकल में बदल देता है।

Markdown से 𝕏 आज़माएँ

समझने के लिए और पैटर्न

हाल के वायरल लेख

और वायरल लेख देखें