आपका AI वर्कफ़्लो इस समय चल रहा है।
आपको बस यह नहीं पता कि इसने तीन दिन पहले काम करना बंद कर दिया था।
यह अभी भी चल रहा है। अभी भी API क्रेडिट जला रहा है। अभी भी ऐसे आउटपुट भेज रहा है जो कोई नहीं पढ़ रहा। जिस एजेंट को बनाने में आपने दो सप्ताह लगाए, वह $0.40 प्रति कचरे के ढेर पर कचरा पैदा कर रहा है — और आपको तब तक पता नहीं चलेगा जब तक कोई ग्राहक इसका स्क्रीनशॉट लेकर मंगलवार को आपको न भेज दे।
यह बदकिस्मती नहीं है। यह डिफ़ॉल्ट परिणाम है।
इसे सेव कर लें। आप इसे दो बार पढ़ेंगे।
30-दिवसीय कब्रिस्तान
हर हफ़्ते, सैकड़ों फाउंडर AI वर्कफ़्लो बनाते हैं और उन्हें Twitter पर पोस्ट करते हैं।
डेमो साफ़ दिखता है। थ्रेड को लाइक मिलते हैं। जवाबों में लिखा होता है "यही भविष्य है।"
तीस दिन बाद, वर्कफ़्लो मर चुका होता है।
डिलीट नहीं हुआ। बदला नहीं गया। मरा हुआ और फिर भी चल रहा है। कार्ड चार्ज कर रहा है। कुछ भी उपयोगी नहीं पैदा कर रहा। फाउंडर आगे बढ़ चुका है। एजेंट को यह संदेश नहीं मिला।
आज बनाए जाने वाले 90% AI वर्कफ़्लो प्रोडक्शन में अपने पहले महीने में जीवित नहीं रहेंगे। इसलिए नहीं कि मॉडल खराब हैं। इसलिए नहीं कि विचार गलत हैं। बल्कि इसलिए कि बनाने वालों ने तीन गलतियाँ कीं जो विफलता की गारंटी देती हैं — और शिप करने से पहले किसी ने उन्हें ये गलतियाँ नहीं बताईं।
यह वह लेख है।
वे क्यों मरते हैं
यहाँ वर्कफ़्लो की मौत का शारीरिक विवरण है। यह हमेशा एक ही क्रम होता है।
दिन 1: आप इसे बनाते हैं। यह डेमो में पूरी तरह से काम करता है। आपको लगता है कि आपने कुछ अनलॉक कर लिया।
दिन 3: यह अब भी काम करता है। आप इसे उतनी बारीकी से जाँचना बंद कर देते हैं।
दिन 9: कुछ बदलता है। कोई API रिस्पॉन्स फ़ॉर्मेट थोड़ा बदल जाता है। कोई स्रोत, जिसे वह पढ़ रहा था, लॉगिन वॉल के पीछे चला जाता है। मॉडल किसी एज केस की व्याख्या दिन एक से अलग तरीके से करता है। आउटपुट चुपचाप खराब हो जाता है। किसी को पता नहीं चलता।
दिन 14: वर्कफ़्लो अब ऐसा आउटपुट पैदा कर रहा है जो तकनीकी रूप से एक प्रतिक्रिया है लेकिन मूलतः बेकार है। यह अब भी चल रहा है। आप अब भी इसके लिए भुगतान कर रहे हैं।
दिन 23: कोई ग्राहक या सहकर्मी कहता है कि कुछ गड़बड़ है। आप जाँच करते हैं। आपको 12 दिनों का टूटा हुआ आउटपुट मिलता है जिसे आप सोच रहे थे कि संभाल लिया गया है।
दिन 30: आप इसे मार देते हैं। आप खुद से कहते हैं कि AI तैयार नहीं है। आप आगे बढ़ जाते हैं।
मॉडल ने आपको विफल नहीं किया। बिल्ड ने मॉडल को विफल किया।
3 नियम जो 10% को बाकियों से अलग करते हैं
जिन फाउंडर के वर्कफ़्लो 30 दिन, 90 दिन, एक साल तक जीवित रहते हैं — वे ज़्यादा स्मार्ट नहीं हैं। उनके पास बेहतर प्रॉम्प्ट नहीं हैं। वे तीन नियमों के साथ बिल्ड करते हैं जिन्हें बाकी सब नज़रअंदाज़ करते हैं।
नियम 1 — कोई नौकरी का विवरण नहीं, कोई एजेंट नहीं
ज़्यादातर लोग एजेंट को एक वाइब के साथ बनाते हैं।
"कंटेंट में मदद करो।" "प्रतिस्पर्धियों की निगरानी करो।" "ग्राहक ईमेल संभालो।"
यह नौकरी का विवरण नहीं है। यह एक इच्छा है। और इच्छाएँ सप्ताहांत तक जीवित नहीं रहतीं।
नौकरी के विवरण के पाँच भाग होते हैं:
यह क्या देखता है। विशेष ट्रिगर या शेड्यूल। "हर सोमवार सुबह 7 बजे" या "हर बार जब 'bug' लेबल वाला नया GitHub इश्यू खुलता है" या "हर बार जब मेरी कॉन्टैक्ट लिस्ट में नहीं है, उस डोमेन से कोई ईमेल आता है।" "कभी-कभी" या "प्रासंगिक होने पर" नहीं।
यह क्या पढ़ता है। बिल्कुल सटीक स्रोत। "इंटरनेट चेक करो" नहीं। "इन तीन RSS फ़ीड, इस Airtable बेस, और इस Slack चैनल के पिछले 7 दिनों से डेटा लो।" विशिष्ट। सीमित। कोई अस्पष्टता नहीं।
यह क्या पैदा करता है। बिल्कुल सटीक आउटपुट फ़ॉर्मेट। "एक सारांश" नहीं। "तीन-खंड वाली ब्रीफ़: एक वाक्य में मुख्य निष्कर्ष, प्रत्येक एक स्रोत के साथ तीन सहायक बुलेट, एक अनुशंसित कार्रवाई। 300 शब्दों से कम। इस Google Doc में।"
यह क्या नहीं करता। गार्डरेल। "मानव अनुमोदन के बिना कभी बाहरी ईमेल न भेजें।" "प्रोडक्शन डेटाबेस में कभी संशोधन न करें।" "कभी सीधे पोस्ट न करें। हमेशा ड्राफ़्ट में सेव करें।" जो चीज़ें आप स्पष्ट मान लेते हैं, वही आपको जलाएँगी।
आपको कैसे पता चलेगा कि इसने काम किया। सफलता की शर्त। "अगर ब्रीफ़ खाली है, तो मुझे एक Slack मैसेज भेजें जिसमें लिखा हो कि कोई प्रासंगिक अपडेट नहीं मिला। कोई खाली ब्रीफ़ न भेजें।"
वाइब्स सप्ताहांत तक नहीं टिकतीं। नौकरी के विवरण टिकते हैं।
आज से आप जो भी वर्कफ़्लो बनाएँ, वह एक नौकरी के विवरण से शुरू होता है। प्रॉम्प्ट से नहीं। नौकरी के विवरण से।
नियम 2 — मौन विफलता ही एकमात्र विफलता है जो आपको मारती है
ज़ोरदार विफलताएँ ठीक हैं। ज़ोरदार विफलताएँ एक एरर भेजती हैं। वे वर्कफ़्लो को रोक देती हैं। वे आपको जगाती हैं। आप उन्हें ठीक करते हैं।
मौन विफलताएँ वे हैं जो व्यवसायों को मारती हैं।
मौन विफलता सफलता जैसी दिखती है। वर्कफ़्लो चलता है। आउटपुट आता है। फ़ॉर्मेट सही है। कंटेंट गलत है — थोड़ा, फिर ज़्यादा, फिर पूरी तरह — और क्योंकि वह सही दिखता है, कोई उसकी जाँच नहीं करता।
यहाँ बताया गया है कि व्यवहार में मौन विफलता कैसे होती है:
आपका कंटेंट एजेंट 30 पोस्ट लिखता है। आपने इसे सेट किया है कि आपके आंतरिक रूब्रिक पर 80 से ऊपर स्कोर करने वाली पोस्ट को ऑटो-शेड्यूल करे। रूब्रिक आपके पहले 20 पोस्ट पर कैलिब्रेट किया गया था। दिन 15 पर, मॉडल आपके रूब्रिक की अलग तरीके से व्याख्या करने लगता है। 82 स्कोर करने वाली पोस्ट अब आपके वास्तविक मानक से औसत दर्जे की हैं। वे वैसे भी बाहर चली जाती हैं। आपका एंगेजमेंट गिर जाता है। आप एल्गोरिदम को दोष देते हैं।
आपका रिसर्च एजेंट एक साप्ताहिक ब्रीफ़ भेजता है। दिन 11 पर, जिन स्रोतों को वह पढ़ रहा था उनमें से एक अपनी URL संरचना बदल देता है। एजेंट चुपचाप उसे लाने में विफल रहता है। वह अंतर को पुराने कैश्ड डेटा से भरता है और इस अंतर को फ़्लैग नहीं करता। आप पुरानी जानकारी पर आधारित एक ब्रीफ़ पढ़ते हैं और उस पर निर्णय लेते हैं।
आपका इनबॉक्स ट्राइएज एजेंट जवाबों का ड्राफ़्ट तैयार करता है। दिन 8 पर, यह एक निश्चित प्रकार के ईमेल को कम प्राथमिकता के रूप में वर्गीकृत करना शुरू कर देता है क्योंकि प्रेषक का नाम उसके प्रशिक्षण में एक पैटर्न से मेल खाता है। आप एक नए ग्राहक के तीन महत्वपूर्ण ईमेल मिस कर देते हैं जिसका उपनाम उस न्यूज़लेटर से मेल खाता है जिसे आप कभी नहीं पढ़ते।
हर मामले में: वर्कफ़्लो चला। कोई एरर नहीं फेंका गया। आप फिर भी हार गए।
समाधान अनिवार्य आउटपुट सत्यापन है। हर एजेंट को तीन चीज़ों की ज़रूरत है:
एक कैनरी आउटपुट। हर आउटपुट में एक फ़ील्ड जिसे सत्यापित करना आसान और नकली बनाना मुश्किल हो। उसने जो नवीनतम स्रोत पढ़ा उसका टाइमस्टैम्प। उसके द्वारा प्रोसेस की गई वस्तुओं की संख्या। एक कॉन्फ़िडेंस स्कोर। कुछ ऐसा जिसे आप दो सेकंड में देख सकें और जान सकें कि एजेंट ने वास्तव में काम किया।
एक मौन विफलता अलर्ट। अगर एजेंट कुछ भी नहीं पैदा करता, या एक सीमा से नीचे कुछ पैदा करता है, तो वह खाली आउटपुट नहीं भेजता। वह आपको एक अलर्ट भेजता है। "इस चक्र में कोई परिणाम नहीं मिला — मैंने यह जाँचा और मुझे कुछ क्यों नहीं मिला होगा।" कुछ न होना हमेशा एक विश्वसनीय खाली परिणाम से अधिक उपयोगी होता है।
एक साप्ताहिक स्पॉट चेक। प्रति एजेंट प्रति सप्ताह एक आउटपुट चुनें। इसे पूरी तरह पढ़ें। इसकी तुलना करें कि आप स्वयं क्या लिखते। इसमें चार मिनट लगते हैं। यह ड्रिफ्ट को विफलता बनने से पहले पकड़ लेता है।
एजेंट ज़ोर से विफल नहीं होते। चुपचाप टूटने के लिए बिल्ड करें।
नियम 3 — आपका लैपटॉप इन्फ्रास्ट्रक्चर नहीं है
यहीं पर 90% बिल्डर मर जाते हैं।
वे स्थानीय रूप से बिल्ड करते हैं। डेमो काम करता है। वे Twitter थ्रेड शिप करते हैं। कोई पूछता है कि क्या यह प्रोडक्शन में चल रहा है। वे हाँ कहते हैं। उनका मतलब है: यह उनके MacBook पर चल रहा है, जो इस समय खुला है, उनके डेस्क पर, उनके अपार्टमेंट में, उनके घर के WiFi से जुड़ा है, और गुरुवार को जब वे हवाई अड्डे के लिए निकलेंगे तो ढक्कन बंद करने पर काम करना बंद कर देगा।
आपका लैपटॉप इन्फ्रास्ट्रक्चर नहीं है। यह एक डेवलपमेंट एनवायरनमेंट है जो संयोग से इस समय कुछ महत्वपूर्ण चला रहा है।
यहाँ बताया गया है कि लैपटॉप पर होस्ट किए गए एजेंटों का क्या होता है:
MacOS सुबह 4 बजे एक अपडेट पुश करता है। मशीन रीस्टार्ट होती है। एजेंट बंद हो जाता है। सोमवार तक किसी को पता नहीं चलता।
आप एक फ्लाइट पर ढक्कन बंद करते हैं। छह घंटे के वर्कफ़्लो छूट गए। इनबॉक्स ट्राइएज एजेंट ने ट्राइएज नहीं किया। बग हंटर ने शिकार नहीं किया। स्टैंडअप एजेंट ने कुछ नहीं भेजा।
आपका घर का WiFi बीस मिनट के लिए ड्रॉप हो जाता है। एजेंट रीट्राई करता है। विफल होता है। आगे बढ़ता है। कुछ भी लॉग नहीं करता। जिस विंडो को उसे पकड़ना था वह चली जाती है।
आप छुट्टी पर चले जाते हैं। लैपटॉप घर पर रहता है। सब कुछ उसी के साथ घर पर रहता है।
असली इन्फ्रास्ट्रक्चर तब चलता है जब आप देख नहीं रहे। यह तब चलता है जब आप सो रहे हैं, हवाई जहाज़ पर हैं, रात के खाने पर हैं, सप्ताहांत के लिए अप्राप्य हैं। इसे ढक्कन खुला रखने के लिए आपकी ज़रूरत नहीं होती।
नियम सरल है: यदि वर्कफ़्लो को एक से अधिक बार चलने की आवश्यकता है और आप इसकी एक चक्र छूटने का जोखिम नहीं उठा सकते, तो यह आपके लैपटॉप पर नहीं रहता।
तीन इन्फ्रास्ट्रक्चर विकल्प जो वास्तव में काम करते हैं:
प्रोसेस मैनेजर के साथ एक VPS। $12/माह का सर्वर जिस पर PM2 या Supervisor चलता है। आपका एजेंट एक प्रबंधित प्रक्रिया के रूप में चलता है। यदि यह क्रैश होता है, तो PM2 इसे स्वचालित रूप से रीस्टार्ट करता है। यदि सर्वर रीबूट होता है, तो PM2 इसे बूट पर शुरू करता है। सस्ता। विश्वसनीय। आकर्षक नहीं। काम करता है।
एक प्रबंधित एजेंट प्लेटफ़ॉर्म। इसके लिए विशेष रूप से बनाया गया। रीस्टार्ट, मॉनिटरिंग, अलर्टिंग को संभालता है। VPS से अधिक खर्च होता है। आपको उन सप्ताहांतों से बचाता है जो आप डीबग करने में बिताते कि प्रक्रिया क्यों मर गई। एक बार जब आपके एजेंट वास्तविक मूल्य उत्पन्न कर रहे हों तो यह इसके लायक है।
शेड्यूलर के साथ सर्वरलेस। AWS Lambda या Google Cloud Functions जो EventBridge या Cloud Scheduler द्वारा ट्रिगर होते हैं। प्रबंधित करने के लिए शून्य इन्फ्रास्ट्रक्चर। आप प्रति निष्पादन भुगतान करते हैं। नहीं चलने पर शून्य पर स्केल होता है। उन एजेंटों के लिए सबसे अच्छा विकल्प जो लगातार चलने के बजाय एक निश्चित शेड्यूल पर चलते हैं।
इनमें से कोई भी जटिल नहीं है। सभी को पंद्रह मिनट की सेटअप की आवश्यकता होती है। उनमें से हर एक आपको सुबह 4 बजे के macOS अपडेट से बचाएगा जो आपके एजेंटों और आपके सोमवार की सुबह को मारता है।
लैपटॉप बंद करें। एजेंटों को चलते रहना चाहिए।
वह वर्कफ़्लो जो बच जाता है
यहाँ बताया गया है कि 90-दिवसीय वर्कफ़्लो कैसा दिखता है जब तीनों नियम लागू किए जाते हैं।
नौकरी का विवरण: हर सोमवार सुबह 7 बजे, इन 5 प्रतिस्पर्धी खातों और इन 3 उद्योग न्यूज़लेटरों के पिछले 7 दिनों की पोस्ट पढ़ें। कोई भी उत्पाद घोषणा, मूल्य परिवर्तन, या ऐसी सामग्री निकालें जो 500 से अधिक एंगेजमेंट प्राप्त करती है। पिछले सप्ताह की ब्रीफ़ से तुलना करें। किसी भी नई चीज़ को फ़्लैग करें। तीन-खंड वाली ब्रीफ़ आउटपुट करें: क्या बदला, क्या गति पकड़ रहा है, उन्होंने कौन सा अंतर खुला छोड़ा। यदि कोई परिवर्तन नहीं मिलता है, तो अलर्ट भेजें: "शांत सप्ताह — यहाँ बताया गया है कि क्या जाँचा गया।" इस Notion पेज पर डिलीवर करें और एक Slack सूचना भेजें।
कैनरी आउटपुट: हर ब्रीफ़ में शामिल है: "जाँचे गए स्रोत: 8। प्रोसेस की गई वस्तुएँ: [N]। नवीनतम वस्तु का टाइमस्टैम्प: [timestamp]।" यदि N शून्य है या टाइमस्टैम्प 8 दिन से अधिक पुराना है, तो यह ब्रीफ़ के बजाय एक अलर्ट भेजता है।
इन्फ्रास्ट्रक्चर: $12/माह के VPS पर चल रहा है। PM2 प्रक्रिया का प्रबंधन करता है। यदि यह क्रैश होता है, तो यह 30 सेकंड में रीस्टार्ट हो जाता है। एक साप्ताहिक लॉग समीक्षा में प्रत्येक शुक्रवार को 3 मिनट लगते हैं।
स्पॉट चेक: प्रत्येक शुक्रवार, एक ब्रीफ़ पूरी तरह से पढ़ी जाती है। इसमें 4 मिनट लगते हैं। छह महीनों में दो बार ड्रिफ्ट पकड़ा गया है।
वह वर्कफ़्लो छह महीने से चल रहा है। इसने दो चक्र छोड़े हैं — दोनों बार इसने एक अलर्ट भेजा जिसमें बताया गया कि क्यों। यह कभी भी चुपचाप विफल नहीं हुआ है।
यही अंतर है एक वर्कफ़्लो के बीच जो बच जाता है और एक के बीच जो दिन नौ पर मर जाता है।
अप्रिय सत्य
ज़्यादातर लोग इसे पढ़ेंगे, सिर हिलाएँगे, और अपने अगले एजेंट को उसी तरह बनाएँगे जैसे उन्होंने पिछला बनाया था।
एक प्रॉम्प्ट। एक डेमो। एक Twitter थ्रेड। तीस दिन का सन्नाटा। एक मरा हुआ वर्कफ़्लो जिसे किसी ने आधिकारिक रूप से नहीं मारा।
तीनों नियम जटिल नहीं हैं। नौकरी का विवरण लिखने में बीस मिनट लगते हैं। आउटपुट सत्यापन में एक फ़ील्ड और एक कंडीशनल लगता है। इन्फ्रास्ट्रक्चर स्थापित करने में पंद्रह मिनट लगते हैं।
अंतर ज्ञान का नहीं है। अंतर यह है कि क्या आप इसे शिप करने से पहले करते हैं या वर्कफ़्लो के विफल होने के बाद।
आप जो भी एजेंट बिना नौकरी के विवरण के बनाते हैं, वह एक ऐसा एजेंट है जिसे आप पुनः बनाएँगे। जो भी एजेंट बिना आउटपुट सत्यापन के है, वह एक ऐसा एजेंट है जो चुपचाप विफल होगा। आपके लैपटॉप पर प्रत्येक एजेंट एक ऐसा एजेंट है जो अगली बार जब आप ढक्कन बंद करेंगे तो मर जाएगा।
उन्हें एक बार सही बनाएँ। वे हमेशा के लिए चलते हैं।
अधिक संपूर्ण प्लेबुक के लिए @sairahul1 को फ़ॉलो करें जो वास्तविक दुनिया के संपर्क में जीवित रहने वाले AI वर्कफ़्लो बनाने पर हैं।
TL;DR
90% AI वर्कफ़्लो 30 दिनों में मर जाते हैं। हमेशा एक ही तीन कारण।
नियम 1 — कोई नौकरी का विवरण नहीं, कोई एजेंट नहीं। वाइब्स सप्ताहांत तक नहीं टिकतीं। परिभाषित करें कि यह क्या देखता है, पढ़ता है, पैदा करता है, टालता है, और आपको कैसे पता चलेगा कि इसने काम किया। एक भी प्रॉम्प्ट लिखने से पहले।
नियम 2 — मौन विफलता ही एकमात्र विफलता है जो आपको मारती है। ज़ोरदार विफलताएँ ठीक हैं। मौन विफलताएँ सफलता जैसी दिखती हैं जब तक कोई ग्राहक उन्हें नहीं ढूँढ लेता। हर एजेंट में एक कैनरी आउटपुट, एक मौन विफलता अलर्ट, और एक साप्ताहिक स्पॉट चेक बनाएँ।
नियम 3 — आपका लैपटॉप इन्फ्रास्ट्रक्चर नहीं है। यह तब चलता है जब ढक्कन खुला हो। असली एजेंट तब चलते हैं जब आप सो रहे हों, हवाई जहाज़ पर हों, सप्ताहांत के लिए अप्राप्य हों। VPS, प्रबंधित प्लेटफ़ॉर्म, या सर्वरलेस। कोई एक चुनें। शिप करने से पहले इसे सेट अप करें।
जो एजेंट बच जाते हैं वे अधिक स्मार्ट नहीं हैं। वे सही बनाए गए हैं।





