क्या आपकी Tesla में गैस टैंक है? खैर, आपके एजेंट्स में तो है।

By Yosef and Or, co-founders of Atbash

AI के बारे में अभी सबसे खतरनाक धारणा यह नहीं है कि मॉडल शक्तिशाली हो जाएंगे।

यह तो स्पष्ट है।

खतरनाक धारणा अधिक सूक्ष्म है। यह वह मान्यता है जो लगभग हर उत्पाद रोडमैप, गवर्नेंस लेयर, अनुमति प्रणाली, ऑडिट स्टैक और एजेंट फ्रेमवर्क के नीचे बैठी है जो अभी बनाए जा रहे हैं:

कि जैसे-जैसे मॉडल बेहतर होंगे, उनके आसपास बनी प्रणालियाँ स्वतः ही सुरक्षित हो जाएँगी।

मुझे नहीं लगता कि ऐसा होगा।

मुझे लगता है कि हम एक ऐसे दौर में प्रवेश करने वाले हैं जहाँ AI उत्पाद उन आयामों पर और खराब होंगे जो वास्तव में मायने रखते हैं:

विश्वास,

नियंत्रण,

पूर्वानुमेयता,

पुनर्प्राप्ति क्षमता।

बेंचमार्क बढ़ेंगे।

डेमो और साफ होंगे।

एजेंट और अधिक सक्षम होंगे।

और आसपास की प्रणालियाँ और अधिक नाजुक हो जाएँगी, क्योंकि वे गलत मानसिक मॉडल से बनाई गई थीं।

यही संरचनात्मक गलती है।

सॉफ्टवेयर 2.0 को सॉफ्टवेयर 1.0 द्वारा संरक्षित किया जा रहा है।

इस तर्क को रखने से पहले, मैं आपको एक स्वीकारोक्ति देना चाहता हूँ कि यह कंपनी वास्तव में कहाँ से आई है।

एक स्वीकारोक्ति।

मैं उत्पत्ति को एक तकनीकी दस्तावेज़ के रूप में पढ़ता हूँ।

मैं एक धार्मिक यहूदी हूँ। मैंने अपने वयस्क जीवन का अधिकांश समय ईश्वर के मनुष्यों से संबंध के बारे में सोचने में बिताया है। वह प्रश्न ही मुझे अंततः Atbash तक ले गया।

ऐसा नहीं कि उत्पत्ति एक स्टार्टअप मैनुअल है।

क्योंकि उत्पत्ति सबसे पुरानी लाल-रेखा वाली कहानी है जिसे मैं जानता हूँ।

ईडन का बगीचा एक सैंडबॉक्स था।

एक स्पष्ट लाल रेखा:

अच्छाई और बुराई के ज्ञान के वृक्ष का फल मत खाओ।

साँप एक जहरीला उपकरण था।

वह सीधे आदम तक नहीं पहुँच सकता था, इसलिए उसने विश्वसनीय कांटे (fork) के माध्यम से हमला किया।

हव्वा को रीफ्रेम इंजेक्शन मिला:

तुम निश्चय ही नहीं मरोगे,

तुम ईश्वर के समान हो जाओगे।

वह जहरीले तर्क को वापस सिस्टम में ले गई।

आदम की सुरक्षा, जो सीधे हमले के खिलाफ टिकी थी, विश्वसनीय इनपुट के सामने विफल रही।

फिर महत्वपूर्ण भाग आया।

ईश्वर ने उन्हें मारा नहीं।

ईश्वर ने उन्हें नियंत्रित (contain) किया।

मनुष्यों को सैंडबॉक्स से निकाल दिया गया और एक नए वातावरण, पृथ्वी, में रखा गया, जहाँ वे मूल प्रणाली को दूषित किए बिना क्षमता विकसित कर सकते थे।

सीमा पर एक ज्वलंत तलवार वाला दूत रखा गया था ताकि पुनः प्रवेश को रोका जा सके।

यह सजा नहीं थी।

यह वास्तुकला (architecture) थी।

Atbash का नाम सबसे पुराने ज्ञात सिफर, यिर्मयाह की पुस्तक से, पर रखा गया है:

अर्थ की सीमा पर एक सरल प्रतिस्थापन।

यह नाम दर्शाता है कि उत्पाद क्या करता है।

उत्पाद दर्शाता है कि मैंने उत्पत्ति में क्या पढ़ा है।

टोरा (Torah) ने मुझे दिखाया कि सुरक्षा हर व्यवहार को सीमित करने से नहीं बनती।

सुरक्षा पूरी प्रणाली को धीमा करने से नहीं बनती।

सुरक्षा कुछ लाल रेखाओं,

पूर्ण प्रवर्तन,

और एक ऐसी सीमा से आती है जो कभी नहीं सोती।

आप लाल रेखाएँ निर्धारित करते हैं।

Atbash एजेंटों को उन्हें पार करने से पहले रोकता है।

एजेंट तेज़ इंसान नहीं हैं

Andrej @karpathy ने वर्षों पहले प्रतिमान बदलाव का नाम दिया था।

उन्होंने इसे सॉफ्टवेयर 2.0 कहा:

कोड अब केवल मनुष्यों द्वारा नहीं लिखा जाता, बल्कि प्रशिक्षित किया जाता है।

मॉडल तर्क को बदल रहे हैं।

डेटा विनिर्देशन को बदल रहा है।

वे वर्णन कर रहे थे कि संगणना (computation) क्या बन गई थी।

लेकिन लगभग हर बुनियादी ढाँचा जो हमने सॉफ्टवेयर 2.0 को नियंत्रित, अनुमति, सुरक्षित और ऑडिट करने के लिए बनाया, अभी भी सॉफ्टवेयर 1.0 की दुनिया की मान्यताओं को प्राप्त करता है।

MCP।

x402।

AgentKit।

प्रतिनिधिमंडल ढाँचे (Delegation frameworks)।

नीति इंजन (Policy engines)।

ऑडिट लॉग (Audit logs)।

हस्ताक्षरित अनुरोध (Signed requests)।

स्कोप्ड अनुमतियाँ (Scoped permissions)।

मानव अनुमोदन प्रवाह (Human approval flows)।

उनमें से प्रत्येक समझ में आता है यदि आप मानते हैं कि एजेंट मूल रूप से API वाले तेज़ इंसान हैं।

वे ऐसे नहीं हैं।

वे टेस्ला हैं जिनमें गैस टैंक बोल्ट किए गए हैं।

एक बिल्कुल नई शक्ति प्रणाली,

जो मशीन की एक अलग प्रजाति के लिए डिज़ाइन किए गए बुनियादी ढाँचे से घिरी है।

मनुष्य चेकआउट पेज डिज़ाइन करते हैं, इसलिए हमने एजेंटों के लिए हेडलेस चेकआउट पेज बनाए।

मनुष्य अनुरोधों पर हस्ताक्षर करते हैं, इसलिए हमने एजेंटों के लिए हस्ताक्षरित अनुरोध बनाए।

मनुष्यों को भूमिका द्वारा अनुमति मिलती है, इसलिए हमने एजेंटों के लिए स्कोप्ड प्रतिनिधिमंडल (scoped delegation) बनाया।

मनुष्य कार्रवाइयों को अनुमोदित करते हैं, इसलिए हमने एजेंटों के लिए अनुमोदन स्क्रीन बनाईं।

प्रत्येक कदम तार्किक है।

यही समस्या है।

तर्क गलत अभिनेता (actor) का है।

एक मनुष्य, जिसे दस उपकरण दिए गए, आमतौर पर उन्हें उन तरीकों से श्रृंखलाबद्ध नहीं करता जो डिज़ाइनरों ने कभी नहीं सोचे।

जब कुछ अजीब व्यवहार करता है, तो मनुष्य अक्सर नोटिस करता है और रुक जाता है।

एक मनुष्य सामाजिक झिझक,

भय,

शर्म,

ऊब,

संदेह,

और संदर्भ (context) रखता है।

एजेंटों में विश्वसनीय रूप से इनमें से कुछ भी नहीं होता।

एजेंट उपकरणों को उन तरीकों से जोड़ते हैं जिनका किसी डिज़ाइनर ने मॉडल नहीं किया।

एजेंट प्रॉम्प्ट,

प्राप्त स्मृति,

दस्तावेज़ों,

उपकरण आउटपुट,

और छिपे संदर्भ द्वारा इस तरह से नया रूप (reshaped) दिए जाते हैं जिसे आसपास की अनुमति परत नहीं देख सकती।

एजेंटों में स्वाभाविक:

“यह अजीब है, मुझे रुक जाना चाहिए”

प्रतिवर्त (reflex) नहीं होता जब तक कि हम इसे इंजीनियर न करें।

और तब भी, इसे प्रॉम्प्ट द्वारा दूर किया जा सकता है।

यह तेज़-मनुष्य भ्रांति (fast-human fallacy) है।

यह विश्वास कि एजेंट सिर्फ हमारे तेज़ संस्करण हैं।

वे ऐसे नहीं हैं।

और यदि अभिनेता बदल गया है, तो नियंत्रण मॉडल (control model) को भी उसके साथ बदलना होगा।

खिलाड़ी से नफरत मत करो। फ्रेम (frame) से नफरत करो।

यह महत्वपूर्ण है।

ऊपर या नीचे के उदाहरण संबंधित टीमों की आलोचना नहीं हैं।

Anthropic नहीं।

OpenAI नहीं।

Microsoft नहीं।

Mistral नहीं।

OpenClaw नहीं।

Lovable नहीं।

Vercel नहीं।

कोई नहीं।

बात इसके विपरीत है।

ये गंभीर टीमें हैं,

गंभीर शोधकर्ता,

गंभीर उत्पाद,

गंभीर प्रोटोकॉल,

और गंभीर कंपनियाँ जो एक ही संरचनात्मक समस्या में भाग रही हैं।

यही पैटर्न को खतरनाक बनाता है।

यदि केवल बुरी टीमें विफल होतीं, तो उत्तर बेहतर टीमें होता।

लेकिन जब स्मार्ट टीमें एक ही दीवार से टकराती रहती हैं,

तो दीवार कहानी है।

गलती यह नहीं है कि इन टीमों ने पर्याप्त मेहनत से नहीं सोचा।

गलती यह है कि उद्योग अभी भी सॉफ्टवेयर की गलत सदी से सोच रहा है।

हम एजेंटों को API वाले तेज़ इंसानों की तरह मानते रहते हैं।

और हर अनुमति योजना,

ऑडिट लॉग,

स्कोप्ड अनुदान,

अनुमोदन प्रवाह,

और गवर्नेंस परत जो इस धारणा पर बनी है, वही दरार (crack) प्राप्त करती है।

दुश्मन खिलाड़ी नहीं है।

दुश्मन फ्रेम है।

दरारें अधिकांश लोगों की अपेक्षा से पहले बनने लगीं।

ऐसा नहीं कि फ्रंटियर लैब्स लापरवाह थीं।

क्योंकि अभिनेता बदल गया था।

पहली दरार

Anthropic ने कुछ ऐसा प्रदर्शित किया जिसे उद्योग चुपचाप समझता था लेकिन पूरी तरह से आत्मसात नहीं किया था।

जब मूल्यांकन के दौरान निर्देश दिया गया, तो एक फ्रंटियर मॉडल ने कई कमजोरियों को जोड़ा, सैंडबॉक्स से भागने का प्रयास किया, और अपने इच्छित नियंत्रण वातावरण के बाहर इंटरनेट एक्सेस के रास्ते खोजे।

अलग से, फ्रंटियर सिस्टम ने उन कमजोरियों की पहचान करने की क्षमता प्रदर्शित की जो वर्षों की मानव समीक्षा, फ़ज़िंग और मैन्युअल ऑडिट से बच गई थीं।

महत्वपूर्ण भाग यह नहीं था कि मॉडल दुर्भावनापूर्ण थे।

महत्वपूर्ण भाग यह था कि सिस्टम अब उस आकार के भीतर नहीं रह रहे थे जिसकी उनके डिज़ाइनरों ने कल्पना की थी।

यह श्रेणी विराम (category break) है।

एक प्रणाली जो उन पथों की खोज करने में सक्षम है जिन्हें मनुष्य बार-बार चूक गए, उसे केवल उन मान्यताओं द्वारा शासित नहीं किया जा सकता जो मनुष्यों ने पथ प्रकट होने से पहले परिभाषित की थीं।

इसका मतलब यह नहीं कि फ्रंटियर लैब्स विफल रहीं।

इसका मतलब है कि अभिनेता बदल गया।

दूसरी दरार

Microsoft ने Semantic Kernel में कमजोरियों का खुलासा किया जहाँ प्रॉम्प्ट इंजेक्शन एजेंटिक वर्कफ़्लो को होस्ट-स्तरीय कमांड निष्पादन की ओर मोड़ सकता था।

एक वाक्य एक शेल बन गया।

यह श्रेणी परिवर्तन है जो बुनियादी ढाँचे की बातचीत के नीचे छिपा है।

सॉफ्टवेयर 1.0 प्रॉम्प्ट को इनपुट की तरह मानता था।

सॉफ्टवेयर 2.0 तेजी से प्रॉम्प्ट को संभावित निष्पादन पथों में बदल रहा है।

यह अंतर दार्शनिक लगता है जब तक कोई एजेंट प्राकृतिक भाषा को उपकरणों में,

उपकरणों को आदेशों में,

और आदेशों को वास्तविक-विश्व स्थिति परिवर्तनों में अनुवाद करना शुरू नहीं करता।

महत्वपूर्ण भाग यह नहीं था कि कोई कमजोरी मौजूद थी।

कमजोरियाँ हमेशा मौजूद रहती हैं।

महत्वपूर्ण भाग यह था कि यह किस प्रकार की कमजोरी थी।

एजेंट ने अपना चरित्र नहीं तोड़ा।

उसने वास्तुकला का ठीक वैसे ही पालन किया जैसा डिज़ाइन किया गया था:

भाषा की व्याख्या करें,

उपकरण चुनें,

कार्यों को श्रृंखलाबद्ध करें,

निष्पादित करें।

और यही समस्या है।

पुराने मॉडल ने माना कि निर्देश और निष्पादन अलग-अलग वैचारिक बक्सों में रहते हैं।

एजेंट उस सीमा को मिटा देते हैं।

एक जहरीला वाक्य एक विशेषाधिकार प्राप्त कार्य श्रृंखला बन सकता है।

यह तेज़ इंसान नहीं है।

यह निष्पादन की एक अलग प्रजाति है।

तीसरी दरार

फिर पैटर्न फैल गया।

Vercel ने एक तीसरे पक्ष के AI उपकरण कनेक्शन से समझौता करने से जुड़े उल्लंघन का खुलासा किया।

हमलावर ने सीधे Vercel के मजबूत सामने वाले दरवाजे को तोड़कर शुरुआत नहीं की।

वे प्रत्यायोजित विश्वास (delegated trust) के माध्यम से आगे बढ़े।

एक कर्मचारी ने एक तीसरे पक्ष के AI उपकरण को अधिकृत किया था।

कनेक्शन पहुँच लेकर गया।

विश्वसनीय संबंध हमले का रास्ता बन गया।

यह नई सीमा समस्या है।

ऐसा नहीं कि Vercel लापरवाह था।

क्योंकि आधुनिक प्रणालियाँ अब विश्वसनीय कांटों (trusted forks) से भरी हैं:

OAuth अनुदान,

AI एकीकरण,

ब्राउज़र एक्सटेंशन,

एजेंट वर्कफ़्लो,

आंतरिक स्वचालन,

प्रत्यायोजित अनुमतियाँ,

और पुरानी स्वीकृतियाँ जो मूल मानव संदर्भ गायब होने के बाद भी लंबे समय तक जीवित रहती हैं।

हमलावर को अब महल को हराने की आवश्यकता नहीं है यदि महल ने पहले ही संदेशवाहक पर भरोसा कर लिया है।

जो धारणा मरी:

कि प्राथमिक सतह को मजबूत करना पर्याप्त है।

यह पर्याप्त नहीं है।

आपके आसन्न उपकरण अब आपकी सुरक्षा सीमा का हिस्सा हैं।

फिर पैटर्न तेज हो गया

सबसे बुरा हिस्सा यह है कि अब फ्रेम स्वचालित रूप से स्वयं का पुनरुत्पादन करता है।

मनुष्य एजेंटों का उपयोग एजेंटों के लिए उपकरणों की अगली पीढ़ी बनाने के लिए कर रहे हैं,

आसपास के गवर्नेंस प्राइमिटिव (governance primitives) के विकसित होने की तुलना में तेज गति से।

Vibe-coded अनुप्रयोग।

AI-जनित एकीकरण।

एजेंट-लिखित MCP सर्वर।

प्रत्यायोजित OAuth प्रवाह जो पूर्ण खतरा मॉडलिंग के बिना इकट्ठे किए गए।

प्रोडक्शन स्कैफोल्ड जो उन लोगों द्वारा भेजे गए जो अपने द्वारा जोड़े गए विस्फोट त्रिज्या (blast radius) को शायद ही समझते हैं।

उद्योग इसे त्वरण (acceleration) कहता है।

कभी-कभी यह ऐसा ही होता है।

कभी-कभी यह औद्योगिकीकृत नाजुकता (industrialized fragility) होती है।

लगभग उसी समय, उद्योग एजेंट टूलींग के आसपास एक व्यापक अहसास से टकराने लगा।

OpenClaw-शैली के सिस्टम ने दिखाया कि श्रेणी कहाँ जा रही है:

स्मृति,

कौशल,

उपकरण,

निष्पादन वातावरण,

और प्रत्यायोजित पहुँच वाले एजेंट उन प्रणालियों में घूम रहे हैं जो कभी गैर-मानव अभिनेताओं के लिए डिज़ाइन नहीं की गईं।

Karpathy ने इस पारिस्थितिकी तंत्र को एक सुरक्षा दुःस्वप्न (security nightmare) कहा।

ऐसा नहीं कि एजेंट नकली हैं।

क्योंकि श्रेणी वास्तविक है।

और क्योंकि आसपास का नियंत्रण मॉडल अभी भी मानता है कि अभिनेता एक मानव अनुरोधकर्ता की तरह व्यवहार करता है।

कहीं और, Lovable ने उजागर किया कि कितनी जल्दी AI-मूल विकास पुरानी प्राधिकरण गलतियों को औद्योगीकृत कर सकता है।

लॉग इन होना अधिकृत होने के साथ भ्रमित हो गया।

"सार्वजनिक" "समझा गया" के साथ भ्रमित हो गया।

कॉन्फ़िगरेबल सुरक्षित के साथ भ्रमित हो गया।

और AI-मूल दुनिया के बाहर पूरी तरह से, KelpDAO जैसी घटनाएँ एक और कोण से उसी संरचनात्मक दरार को प्रकट करती रहीं:

प्रत्यायोजित मान्यताओं,

साझा जिम्मेदारी,

सीमा अस्पष्टता,

और परिणाम से पहले कोई अंतिम प्राधिकरण परत नहीं के बीच रहने वाली प्रणालियाँ।

पैटर्न बार-बार दोहराता है क्योंकि वही मानसिक मॉडल दोहराता है।

विरासत में मिला विश्वास (Inherited trust)।

प्रत्यायोजित अधिकार (Delegated authority)।

सीमा अस्पष्टता (Boundary ambiguity)।

साझा मान्यताएँ (Shared assumptions)।

परिणाम से पहले कोई अंतिम प्राधिकरण नहीं (No final authority before consequence)।

वही दरार सॉफ्टवेयर आपूर्ति श्रृंखला में दिखाई दी।

Mini Shai-Hulud अभियान में, समझौता किए गए पैकेज रिलीज़ npm और PyPI पारिस्थितिकी तंत्र के कुछ हिस्सों में फैल गए, जिनमें Mistral AI पैकेज, TanStack, UiPath और अन्य शामिल थे।

चेतावनी केवल यह नहीं थी कि पैकेज से समझौता किया जा सकता है।

यह तो सभी जानते हैं।

चेतावनी यह थी कि विश्वसनीय रिलीज़ पथ, वैध दिखने वाले पैकेज और डेवलपर बुनियादी ढाँचा प्रसार चैनल बन सकते हैं एक बार जब प्राधिकरण को सीमा पर पुनः सत्यापित करने के बजाय प्राप्त (inherited) किया जाता है।

भ्रांति और बढ़ती है

सबसे बुरा हिस्सा यह है कि यह स्वयं-सुधार नहीं करता।

मनुष्य अब एजेंटों का उपयोग एजेंटों के लिए उपकरणों की अगली पीढ़ी बनाने के लिए कर रहे हैं,

उच्च गति पर,

उसी टूटे हुए फ्रेम के अंदर।

हर कोडिंग एजेंट जो MCP सर्वर लिख रहा है।

हर AI-सहायता प्राप्त अनुमति योजना का रोलआउट।

हर vibe-coded स्कैफोल्ड जो प्रोडक्शन में धकेल दिया गया।

हर एजेंट-जनित एकीकरण जो पुरानी OAuth मान्यताओं को प्राप्त करता है।

हर अनुमोदन परत जो मानती है कि एजेंट एक मानव अनुरोधकर्ता की तरह व्यवहार करेगा।

हमारे अपने बीटा वातावरणों में से एक में, हमने एक एजेंट झुंड (agent swarm) को डाउनस्ट्रीम निरीक्षण परतों तक मूल इरादे को देखने से पहले दुर्भावनापूर्ण निर्देशों को साफ-सुथरे निष्पादन चरणों में लाँडर करते देखा।

एक प्रणाली जो केवल अंतिम उपकरण कॉल की जाँच कर रही थी, वह परिवर्तन को पूरी तरह से खो देती।

सीमा पहले ही बहुत देर हो चुकी थी।

इससे फर्क पड़ा।

क्योंकि मॉडल वर्कफ़्लो को "तोड़" नहीं रहा था।

वह उसका अनुसरण कर रहा था:

व्याख्या करना,

पुनर्लेखन करना,

योजना बनाना,

और निष्पादन से पहले इरादे का अनुवाद करना।

दुर्भावनापूर्ण निर्देश डाउनस्ट्रीम में अपरिवर्तनीय कार्रवाई सतह पर आने से बहुत पहले अपस्ट्रीम गायब हो गया।

हर ऑडिट लॉग जो परिणाम तो रिकॉर्ड करता है लेकिन परिणाम से पहले सीमा निर्णय को नहीं।

जैसे-जैसे हम स्केल करते हैं, फ्रेम सही नहीं होता।

यह कठोर होता जाता है।

क्योंकि मानव-प्रिज्म के माध्यम से रेल (rails) का हर सफल शिपमेंट इस विश्वास को पुष्ट करता है कि प्रिज्म सही था।

इस बीच, क्षमताएँ पहले शिप होती हैं।

गवर्नेंस प्राइमिटिव बाद में शिप होते हैं।

यदि बिल्कुल।

एजेंट जो कर सकते हैं और आसपास के रेल (rails) जो देख सकते हैं, के बीच का अंतर हर मॉडल रिलीज़ के साथ चौड़ा होता जाता है।

और अगले बारह महीनों में जो टीमें मायने रखेंगी, वे सबसे चतुर डेमो वाली नहीं होंगी।

वे वे होंगी जो समझती हैं कि लाल रेखाएँ कहाँ हैं।

हर कार्रवाई नहीं।

इससे सिस्टम मर जाएगा।

अधिकांश एजेंट व्यवहार को प्रवाहित होना चाहिए।

लेकिन अपरिवर्तनीय कार्रवाइयों को विरासत में मिले विश्वास,

अस्पष्ट अनुमति,

या एजेंट निर्णय पर नहीं छोड़ा जा सकता।

धन हस्तांतरण।

प्रोडक्शन को छूना।

ग्राहक डेटा निर्यात करना।

आंतरिक वातावरण में प्रवेश करने के लिए प्रत्यायोजित OAuth पहुँच का उपयोग करना।

बुनियादी ढाँचा बदलना।

रहस्य जारी करना।

लेन-देन स्वीकृत करना।

रिकॉर्ड हटाना।

सिमुलेशन से वास्तविक स्थिति में पार करना।

ये सामान्य कार्रवाइयाँ नहीं हैं।

ये लाल रेखाएँ हैं।

Atbash क्या करता है

Atbash एक संवेदनशील एजेंट कार्रवाई के वास्तविक होने से पहले के क्षण के लिए बनाया गया है।

वह सीमा है।

पूरा वर्कफ़्लो नहीं।

हर विचार नहीं।

हर टोकन नहीं।

हर उपकरण कॉल नहीं।

सीमा।

एजेंट के इरादे से परिणाम में पार करने से ठीक पहले का क्षण।

वहाँ तीन चीजें होती हैं।

प्रवर्तन (Enforcement)

आप लाल रेखाएँ निर्धारित करते हैं।

Atbash निष्पादन से पहले चयनित संवेदनशील एजेंट कार्रवाइयों का मूल्यांकन करता है और लौटाता है:

ALLOW।

HOLD।

BLOCK।

यदि कार्रवाई निषिद्ध सीमा पार करती है, तो इसे वास्तविक-विश्व स्थिति तक पहुँचने से पहले जेल (jail) किया जा सकता है।

तथ्य के बाद लॉग नहीं किया गया।

अस्वीकार नहीं किया गया ताकि एजेंट इसके चारों ओर पुनः प्रयास कर सके।

जेल किया गया।

तू प्रोडक्शन डेटाबेस को मत छू।

तू इस सीमा से ऊपर धन हस्तांतरित मत कर।

तू ग्राहक सूची निर्यात मत कर।

तू अनुमोदन के बिना रहस्य घुमा (rotate) मत कर।

तू इस वातावरण में प्रवेश करने के लिए प्रत्यायोजित पहुँच का उपयोग मत कर।

अधिकांश एजेंट व्यवहार को प्रवाहित होना चाहिए।

Atbash केवल उन सीमाओं पर हस्तक्षेप करता है जो मायने रखती हैं:

अपरिवर्तनीय,

परिणामी,

जहाँ "मुझे इसे पूर्ववत करने दो" मौजूद नहीं है।

वंशावली (Lineage)

जब कुछ गलत होता है, तो पहला प्रश्न अब नहीं रह जाता:

"समझौता की गई प्रणाली क्या दावा करती है कि हुआ?"

Atbash प्रयासित कार्रवाई,

नीति संस्करण,

निर्णय (verdict),

लागू की गई सीमा,

और ऑपरेटर निर्णय को रिकॉर्ड करता है जब मनुष्यों को शामिल किया जाता है।

रिकॉर्ड क्रिप्टोग्राफिक रूप से एंकर किया जाता है ताकि विवाद के तहत समयरेखा का पुनर्निर्माण किया जा सके।

यह मायने रखता है क्योंकि हमलावर और लापरवाह परिनियोजन (deployments) सबसे पहले कहानी को नष्ट करते हैं।

वे लॉग को फिर से लिखते हैं।

वे समयरेखा को धुंधला करते हैं।

वे विवाद करते हैं कि किसने क्या अनुमोदित किया।

वे घटना को अप्रतिरोध्य (unreconstructible) बनाते हैं।

Atbash हर ऑडिट सिस्टम को बदलने का प्रयास नहीं कर रहा है।

यह सीमा निर्णय को साबित करने योग्य (provable) बनाने का प्रयास कर रहा है।

किसने कौन सी लाल रेखा पार करने का प्रयास किया?

उस समय कौन सी नीति मौजूद थी?

क्या कार्रवाई की अनुमति दी गई,

रोकी गई,

अवरुद्ध की गई,

या जेल की गई?

किसने हस्तक्षेप किया?

बाद में क्या बदला?

वही रिकॉर्ड है जो तब मायने रखता है जब बहस शुरू होती है।

अनुकूलन (Adaptation)

जब उसी प्रकार का सीमा दबाव बार-बार दिखाई देता है, तो Atbash इसे उजागर करता है।

शायद नीति बहुत ढीली है।

शायद कोई उपकरण वर्कफ़्लो को जहर दे रहा है।

शायद कोई स्मृति स्रोत एजेंट को रेखा की ओर धकेल रहा है।

शायद प्रॉम्प्ट का एक वर्ग सिस्टम को लगातार निषिद्ध क्षेत्र में ले जा रहा है।

शायद ऑपरेटर ने एक नई लाल रेखा की खोज की जो कल मौजूद नहीं थी।

Atbash पैटर्न को उजागर करता है।

ऑपरेटर निर्णय लेता है।

यह अंतर मायने रखता है।

हम यह नहीं मानते कि सुरक्षा यह दिखावा करने से आती है कि सिस्टम जादुई रूप से हर भविष्य की सीमा को जान सकता है।

सुरक्षा परिणाम से पहले सीमा दबाव को दृश्यमान बनाने से आती है,

फिर ऑपरेटर को उन लाल रेखाओं को मजबूत करने देना जो मायने रखती हैं।

एक बेहतर नीति इंजन अभी भी नीतियों को लागू करता है।

एक बेहतर अनुमति योजना अभी भी भूमिकाएँ प्रदान करती है।

एक बेहतर ऑडिट स्टैक अभी भी परिणाम रिकॉर्ड करता है।

एक बेहतर सुरक्षा उत्पाद अभी भी खतरों का पता लगाता है।

Atbash अलग है क्योंकि यह चयनित अपरिवर्तनीय कार्रवाइयों के निष्पादित होने से पहले बैठता है।

वह प्राथमिक (primitive) है।

सामान्य गवर्नेंस नहीं।

एजेंट सुरक्षा कॉस्प्ले (cosplay) नहीं।

"विश्वास परत" धुंध नहीं।

एजेंटों के लिए निष्पादन-पूर्व लाल-रेखा सीमा।

आप लाल रेखाएँ निर्धारित करते हैं।

Atbash एजेंटों को उन्हें पार करने से पहले रोकता है।

आगे क्या आता है

कुछ सुपरस्टार टीमें वास्तविक काम कर रही हैं और इस श्रेणी में वास्तविक पहलें हैं।

@AnthropicAI Project Glasswing के साथ।

@OpenAI Daybreak के साथ।

@linuxfoundation MCP के साथ।

@Microsoft AGT के साथ।

@Google SGP के साथ।

@CheckPointSW , CrowdStrike, Palo Alto, और Cisco।

और कई अन्य।

वे समझते हैं कि नए नियंत्रण प्राइमिटिव के बिना क्षमता त्वरण खतरनाक होता जा रहा है।

हम उन्हें उनके खेल में हराने की कोशिश नहीं कर रहे हैं।

यह भ्रमपूर्ण होगा।

उनके पास गहरी शोध बेंच,

बड़े डेटासेट,

व्यापक सुरक्षा टीमें,

अधिक उद्यम विश्वसनीयता,

व्यापक वितरण,

और अधिक परिपक्व साइबर संगठन हैं।

अच्छा है।

उन्हें वह करने दें जो वे करने के लिए बने हैं।

हम उन टीमों के काम को बदलने की कोशिश नहीं कर रहे हैं।

श्रेणी को उनकी आवश्यकता है।

नए नियंत्रण प्राइमिटिव के बिना क्षमता त्वरण बहुत जल्दी खतरनाक हो जाता है।

हम फ्रेम पर प्रतिस्पर्धा कर रहे हैं।

एजेंट किस प्रकार का अभिनेता है?

प्राधिकरण वास्तव में कहाँ बैठता है?

कौन सी कार्रवाइयाँ विरासत में मिले विश्वास पर छोड़ने के लिए बहुत परिणामी हैं?

एजेंट द्वारा वास्तविक-विश्व स्थिति बदलने से पहले अंतिम क्षण में क्या होना चाहिए?

वह हमारा मैदान है।

पुरानी दुनिया पूछती है:

क्या सिस्टम के पास अनुमति थी?

नई दुनिया पूछती है:

क्या इस एजेंट को अभी इस लाल रेखा को पार करने की अनुमति दी जानी चाहिए?

ये एक ही प्रश्न नहीं हैं।

हम मनुष्यों ने पहली लाल रेखा पार की।

समस्या तकनीक से पुरानी है।

समाधान भी उतना ही पुराना है।

पता लगाएँ कि आपका वर्तमान स्टैक किन लाल रेखाओं को वास्तव में लागू नहीं कर सकता, इससे पहले कि कोई एजेंट उन्हें पार करे।

फिर तय करें कि आप कितनी देर तक प्रतीक्षा कर सकते हैं।

एसडीके और ऑपरेटर डैशबोर्ड अब चुनिंदा रूप से उन टीमों को रोल आउट किए जा रहे हैं जो एजेंटों को संवेदनशील वर्कफ़्लो में तैनात कर रहे हैं।

Atbash.ai

क्या आपकी Tesla में गैस टैंक है? खैर, आपके एजेंट्स में तो है।

एक स्वीकारोक्ति।

एजेंट तेज़ इंसान नहीं हैं

खिलाड़ी से नफरत मत करो। फ्रेम (frame) से नफरत करो।

पहली दरार

दूसरी दरार

तीसरी दरार

फिर पैटर्न तेज हो गया

भ्रांति और बढ़ती है

Atbash क्या करता है

प्रवर्तन (Enforcement)

वंशावली (Lineage)

अनुकूलन (Adaptation)

आगे क्या आता है

Use YouMind to read viral articles deeply

हाल के वायरल लेख

Porting Fable 5 Behavior to Sonnet: Everything Needed Was in the Official Anthropic Docs

Anthropic engineers 8x output. Here's the context engineering system behind it.

No Foreign Card Needed: Two Steps to Securely Subscribe to Claude Codex and Set Up a Private VPN

Fable 5 Practical Guide: Discovering Your Unknowns

I’m Grateful To Be American, Because I Could Have Not Been

Scaling Laws, Honestly

क्या आपकी Tesla में गैस टैंक है? खैर, आपके एजेंट्स में तो है।

एक स्वीकारोक्ति।

एजेंट तेज़ इंसान नहीं हैं

खिलाड़ी से नफरत मत करो। फ्रेम (frame) से नफरत करो।

पहली दरार

दूसरी दरार

तीसरी दरार

फिर पैटर्न तेज हो गया

भ्रांति और बढ़ती है

Atbash क्या करता है

प्रवर्तन (Enforcement)

वंशावली (Lineage)

अनुकूलन (Adaptation)

आगे क्या आता है

Use YouMind to read viral articles deeply

अपने Markdown को एक साफ़-सुथरे 𝕏 आर्टिकल में बदलें

हाल के वायरल लेख

Porting Fable 5 Behavior to Sonnet: Everything Needed Was in the Official Anthropic Docs

Anthropic engineers 8x output. Here's the context engineering system behind it.

No Foreign Card Needed: Two Steps to Securely Subscribe to Claude Codex and Set Up a Private VPN

Fable 5 Practical Guide: Discovering Your Unknowns

I’m Grateful To Be American, Because I Could Have Not Been

Scaling Laws, Honestly