Fable 5 को प्रॉम्प्ट करने का सही तरीका, सीधे इसे बनाने वाली टीम से

@cyrilXBT
अंग्रेज़ी2 दिन पहले · 02 जुल॰ 2026
400K
397
48
12
1.3K

TL;DR

यह गाइड Fable 5 के लिए आधिकारिक Anthropic रणनीतियों को विस्तार से बताती है, जिसमें हाई-लेटेंसी वाले स्वायत्त कार्यों को संभालने, मॉडल की सक्रियता को प्रबंधित करने और स्थायी मेमोरी सिस्टम को लागू करने पर ध्यान केंद्रित किया गया है।

फेबल 5 आज, 1 जुलाई 2026 से वैश्विक स्तर पर वापस आ गया है।

इसे खोलने और ओपस 4.8 पर इस्तेमाल किए गए वही प्रॉम्प्ट चलाने से पहले, इसे पढ़ें। एंथ्रोपिक ने विशेष रूप से फेबल 5 के लिए एक आधिकारिक प्रॉम्प्टिंग गाइड प्रकाशित किया है, और इसमें सबसे महत्वपूर्ण बात यह कही गई है कि अधिकांश टीमें गलत चीजों पर इसका परीक्षण करके मॉडल की क्षमता को कम आंकती हैं।

फेबल 5 उसी टूल का एक अधिक स्मार्ट संस्करण नहीं है जिसका आप उपयोग कर रहे थे। यह एक अलग श्रेणी का टूल है जिसके लिए एक अलग श्रेणी के प्रॉम्प्ट की आवश्यकता होती है। सबसे अच्छे परिणाम देखने वाली टीमें वे नहीं हैं जो बेहतर प्रश्न लिखती हैं। वे वे हैं जो इसे कठिन समस्याएँ देती हैं, लंबे रन को अलग तरीके से संरचित करती हैं, और समझती हैं कि फेबल 5 में किन व्यवहारिक परिवर्तनों के लिए मौजूदा वर्कफ़्लो के टूटने से पहले प्रॉम्प्ट अपडेट की आवश्यकता होती है।

यह उस गाइड के वास्तविक अर्थ का पूरा विवरण है, जिसमें वह सब कुछ शामिल है जो आपको फेबल 5 का उपयोग उस तरह से शुरू करने के लिए चाहिए जैसा एंथ्रोपिक का इरादा है।

फेबल 5 वास्तव में किसके लिए है

एंथ्रोपिक की आधिकारिक गाइड में सबसे स्पष्ट ढाँचा यह है: फेबल 5 उन समस्याओं को हल करता है जो पहले के मॉडलों के लिए बहुत जटिल, लंबी या अस्पष्ट थीं। यह विशेष रूप से एंड-टू-एंड कार्यों में प्रभावी है जिन्हें पूरा करने में एक व्यक्ति को घंटों, दिनों या हफ्तों लग जाते हैं।

यह वाक्य जितना दिखता है, उससे कहीं अधिक काम कर रहा है। यह आपको बता रहा है कि मॉडल का वास्तविक लाभ कहाँ है, और यह सरल प्रश्नों के तेज़ एक-शॉट उत्तरों में नहीं है। यह निरंतर, स्वायत्त, बहु-चरणीय कार्यों में है जिन्हें पिछले मॉडल विखंडित कर देते थे, उनमें मतिभ्रम हो जाता था, या बीच में ही सही ढंग से पूरा करना बंद कर देते थे।

आधिकारिक गाइड स्पष्ट है: केवल सरल वर्कलोड पर फेबल 5 का परीक्षण करना इसकी क्षमताओं को कम आंकता है। यदि आपके मूल्यांकन प्रॉम्प्ट छोटे, अच्छी तरह से परिभाषित कार्य हैं जिन्हें आप ओपस 4.8 के साथ पहले से ही ठीक से पूरा कर रहे थे, तो आपको मामूली सुधार दिखाई देगा और आप निष्कर्ष निकालेंगे कि फेबल 5 इसकी लागत के लायक नहीं है। वास्तव में अलग परिणामों की रिपोर्ट करने वाली टीमें इसे अपनी सबसे कठिन अनसुलझी समस्याओं पर लागू कर रही हैं, वे समस्याएँ जिनके लिए पहले मानवीय पुनरावृत्ति के घंटों, कई आगे-पीछे के सत्रों की आवश्यकता होती थी, या जो निष्पादन चरण में विफल हो जाती थीं।

व्यावहारिक रूप से, इसका मतलब है कि फेबल 5 का मूल्यांकन करते समय पूछने वाला पहला प्रश्न यह नहीं है कि "यह मेरे मौजूदा प्रॉम्प्ट पर कैसा प्रदर्शन करता है?" बल्कि यह है कि "हमने क्या स्वचालित करने की कोशिश करना बंद कर दिया क्योंकि कोई भी मॉडल इसे विश्वसनीय रूप से पूरा नहीं कर सका?" वे परित्यक्त वर्कफ़्लो ही हैं जहाँ फेबल 5 पूरी तरह से एक अलग उत्पाद की तरह दिखने लगता है।

सबसे बड़ा व्यवहारिक परिवर्तन: प्रतिक्रियाओं में अधिक समय लगता है

पहली चीज़ जो ओपस 4.8 से फेबल 5 में स्थानांतरित होने वाली टीमों को आश्चर्यचकित करती है, वह है प्रतिक्रिया विलंबता। एंथ्रोपिक की गाइड इसे सीधे तौर पर स्विच करने वाली टीमों के लिए भ्रम का सबसे आम स्रोत बताती है।

उच्च प्रयास पर, एक एकल प्रतिक्रिया में मिनट लग सकते हैं। स्वायत्त रन पर, इसमें घंटे लग सकते हैं। यह कोई बग या अक्षमता का संकेत नहीं है। यह मॉडल द्वारा सही ढंग से काम करना है। फेबल 5 कार्य करने से पहले योजना बनाता है, अपने काम की जाँच करता है, आवश्यकतानुसार संदर्भ का विस्तार करता है, और एक त्वरित आउटपुट देने में जल्दबाजी नहीं करता है जिसके लिए आपको तुरंत फिर से प्रॉम्प्ट करके यह ठीक करना पड़े कि क्या गलत हुआ।

व्यावहारिक निहितार्थ यह है कि यदि आप एपीआई के माध्यम से फेबल 5 चला रहे हैं तो आपकी टाइमआउट सेटिंग्स को लगभग निश्चित रूप से अपडेट करने की आवश्यकता है। एंथ्रोपिक स्पष्ट रूप से ओपस 4.8 से किसी भी माइग्रेशन के हिस्से के रूप में टाइमआउट रणनीति पर पुनर्विचार करने की सलाह देता है। एक टाइमआउट जो दस सेकंड में प्रतिक्रिया उत्पन्न करने वाले मॉडल के लिए समझ में आता था, वह उन वर्कफ़्लो को तोड़ देगा जहाँ फेबल 5 एक जटिल बहु-चरणीय कार्य की योजना बनाने में तीन मिनट सही ढंग से बिता रहा है।

प्रयास पैरामीटर नियंत्रित करता है कि फेबल 5 प्रतिक्रिया देने से पहले कितनी गहराई से सोचता है। उच्च डिफ़ॉल्ट है और अधिकांश मांग वाले कार्यों के लिए उपयुक्त है। xhigh अधिकतम है और तब अनुशंसित है जब गति की तुलना में पहली बार में सही होना अधिक मायने रखता है, क्योंकि xhigh पर फेबल 5 प्रतिक्रिया देने से पहले अपने काम पर विचार करेगा और उसे मान्य करेगा। मध्यम और निम्न नियमित उप-कार्यों के लिए उपलब्ध हैं जहाँ पूर्ण क्षमता अनावश्यक है और लागत मायने रखती है।

मुख्य सिद्धांत: प्रयास स्तर कोई गुणवत्ता डायल नहीं है जिसे आप बेहतर उत्तरों के लिए बढ़ाते हैं। यह एक लागत और विलंबता का व्यापार-बंद है जिसे आप इस आधार पर कैलिब्रेट करते हैं कि विशिष्ट कार्य को वास्तव में क्या चाहिए। कोडबेस माइग्रेशन xhigh की गारंटी देता है। एक साधारण फ़ॉर्मेटिंग कार्य नहीं करता है।

प्रॉम्प्ट में प्रयास को कैसे नियंत्रित करें

उन कार्यों के लिए जहाँ आप समानांतर एजेंटों के साथ गतिशील वर्कफ़्लो चलाए बिना अधिकतम तर्क चाहते हैं, आप सीधे अपने प्रॉम्प्ट में प्रयास को नियंत्रित कर सकते हैं।

एकल टर्न गहराई के लिए, अपने प्रॉम्प्ट में "अल्ट्राथिंक" शामिल करें। यह किसी भी अन्य सत्र सेटिंग्स को बदले या वर्कफ़्लो ऑर्केस्ट्रेशन को ट्रिगर किए बिना, उस विशिष्ट प्रतिक्रिया के लिए xhigh तर्क प्रयास का संकेत देता है।

सत्र स्तर के स्वचालित वर्कफ़्लो के लिए, क्लॉड कोड में /effort ultracode सेट करें। यह सत्र में प्रत्येक महत्वपूर्ण कार्य के लिए स्वचालित गतिशील वर्कफ़्लो ऑर्केस्ट्रेशन के साथ xhigh तर्क को जोड़ता है। एक महत्वपूर्ण नोट जो एंथ्रोपिक का दस्तावेज़ीकरण स्पष्ट करता है: अल्ट्राकोड के लिए एक मॉडल की आवश्यकता होती है जो xhigh प्रयास का समर्थन करता हो। इसका मतलब वर्तमान में फेबल 5, ओपस 4.8 और ओपस 4.7 है। सॉनेट 4.6 और पुराने मॉडल इसका समर्थन नहीं करते हैं।

एपीआई एकीकरण के लिए, अनुरोध में सीधे प्रयास पैरामीटर का उपयोग करें। फेबल 5 और माइथोस 5 के लिए कच्ची विचार श्रृंखला कभी वापस नहीं की जाती है। thinking.display सेटिंग नियंत्रित करती है कि थिंकिंग ब्लॉक में क्या होता है: "summarized" एक पठनीय सारांश लौटाता है, "omitted" डिफ़ॉल्ट है और खाली थिंकिंग फ़ील्ड लौटाता है।

प्रगति सत्यापन प्रॉम्प्ट

एंथ्रोपिक की आधिकारिक गाइड में यह एकल सबसे उपयोगी प्रॉम्प्ट तकनीक है, और यह फेबल 5 के लंबे स्वायत्त रन के लिए विशिष्ट है।

यह जिस समस्या का समाधान करता है: विस्तारित बहु-चरणीय कार्यों पर, फेबल 5 कभी-कभी रिपोर्ट कर सकता है कि एक चरण पूरा हो गया है जबकि वास्तविक निष्पादन परिणामों के विरुद्ध इसकी पुष्टि नहीं की गई है। यह "मैंने यह कर दिया" समस्या है, और कार्य जितना लंबा और जटिल होता है, इसकी संभावना उतनी ही अधिक होती है।

एंथ्रोपिक के परीक्षण में पाया गया कि एक विशिष्ट निर्देश इस समस्या को लगभग समाप्त कर देता है, यहाँ तक कि उन कार्यों पर भी जो विशेष रूप से निर्मित प्रगति रिपोर्ट निकालने के लिए डिज़ाइन किए गए हैं। इसे किसी भी लंबे स्वायत्त कार्य प्रॉम्प्ट में जोड़ें:

"प्रगति की रिपोर्ट करने से पहले, प्रत्येक दावे को इस सत्र के एक टूल परिणाम के विरुद्ध जाँचें। केवल उसी कार्य की रिपोर्ट करें जिसके लिए आप साक्ष्य प्रस्तुत कर सकते हैं। यदि कुछ अभी तक सत्यापित नहीं हुआ है, तो स्पष्ट रूप से कहें। परिणामों को ईमानदारी से रिपोर्ट करें: यदि परीक्षण विफल होते हैं, तो आउटपुट के साथ ऐसा कहें। यदि कोई चरण छोड़ दिया गया था, तो वह बताएं। जब कुछ हो जाता है और सत्यापित हो जाता है, तो बिना किसी हिचकिचाहट के स्पष्ट रूप से बताएं।"

यह निर्देश फेबल 5 के अपनी स्वयं की स्थिति रिपोर्ट के साथ व्यवहार करने के तरीके को पुनर्गठित करता है। यह संक्षेप में बताने के बजाय कि उसे क्या लगता है कि हुआ, यह रिपोर्ट करने से पहले प्रत्येक दावे को वास्तविक टूल निष्पादन परिणामों के विरुद्ध क्रॉस-रेफरेंस करता है। "जाँचें" शब्द यहाँ विशिष्ट कार्य कर रहा है। एंथ्रोपिक ने कई वाक्यांशों का परीक्षण किया और पाया कि जाँच-भाषा ने नरम समकक्षों की तुलना में अधिक विश्वसनीय स्व-जाँच उत्पन्न की।

कुछ मिनटों से अधिक समय तक चलने वाले या टूल निष्पादन से जुड़े किसी भी वर्कफ़्लो के लिए, यह निर्देश आपके सिस्टम प्रॉम्प्ट में होना चाहिए, न कि केवल आपके टास्क प्रॉम्प्ट में।

सक्रियता की समस्या और इसे कैसे सीमित करें

फेबल 5 ओपस 4.8 की तुलना में अधिक सक्रिय है। काफ़ी अधिक। व्यवहार में, इसका मतलब है कि यह कभी-कभी अनुरोधित कार्रवाई नहीं करेगा जब यह अनुमान लगाता है कि कोई कार्रवाई सहायक होगी, भले ही आपने स्पष्ट रूप से इसके लिए नहीं पूछा हो।

एंथ्रोपिक आधिकारिक गाइड में जो उदाहरण देता है: बिना अनुरोध के एक ईमेल का मसौदा तैयार करना, या परिवर्तन करने से पहले एक रक्षात्मक git शाखा बैकअप बनाना। ये व्यवहार फेबल 5 के दृष्टिकोण से त्रुटियाँ नहीं हैं। वे मॉडल द्वारा वास्तव में सहायक होने का प्रयास हैं जो वह अनुमान लगाता है कि आप शायद चाहते हैं।

समस्या यह है कि उत्पादन वर्कफ़्लो में अनुरोधित कार्रवाइयाँ, विशेष रूप से वे जो बाहरी सिस्टम, ईमेल, git या फ़ाइलों को छूती हैं, वास्तविक समस्याएँ पैदा कर सकती हैं। एक मॉडल जो बिना पूछे किसी ग्राहक को ईमेल करता है या रिपॉजिटरी में अप्रत्याशित शाखाएँ बनाता है, वह एक ऐसा मॉडल नहीं है जिसे आप स्पष्ट सुरक्षा उपायों के बिना अप्राप्य छोड़ सकते हैं।

समाधान सीधा है लेकिन किसी भी स्वचालित या अप्राप्य वर्कफ़्लो के लिए हर सिस्टम प्रॉम्प्ट में होना चाहिए:

"जब उपयोगकर्ता किसी समस्या का वर्णन कर रहा है, कोई प्रश्न पूछ रहा है, या बदलाव का अनुरोध करने के बजाय जोर से सोच रहा है, तो डिलिवरेबल आपका मूल्यांकन है। अपने निष्कर्षों की रिपोर्ट करें और रुक जाएं। पूछे जाने तक कोई सुधार लागू न करें। सिस्टम स्थिति को बदलने वाला कमांड चलाने से पहले, जिसमें रीस्टार्ट, डिलीट या कॉन्फ़िग एडिट शामिल हैं, पुष्टि करें कि साक्ष्य वास्तव में उस विशिष्ट कार्रवाई का समर्थन करते हैं।"

यह निर्देश स्पष्ट रूप से अवलोकन और कार्य करने के बीच की सीमा को परिभाषित करता है, जिसे फेबल 5 को अनुमान लगाने के बजाय स्पष्ट रूप से बताए जाने की आवश्यकता है। इस बाधा का सबसे महत्वपूर्ण हिस्सा दूसरा वाक्य है: निष्कर्षों की रिपोर्ट करें और रुक जाएं। फेबल 5 को यह जानने की आवश्यकता है कि एक मूल्यांकन एक पूर्ण डिलिवरेबल है, न कि तत्काल कार्रवाई का अग्रदूत।

मेमोरी सिस्टम प्रॉम्प्ट

फेबल 5 विशेष रूप से शक्तिशाली होता है जब यह एक स्थायी मेमोरी सिस्टम से सुसज्जित होता है जो सत्रों में सीख को संचित करता है। आधिकारिक गाइड इसके लिए एक विशिष्ट संरचना की सिफारिश करता है।

प्रत्येक सीख को शीर्ष पर एक-पंक्ति सारांश के साथ अपनी स्वयं की Markdown फ़ाइल मिलती है। फ़ाइल रिकॉर्ड करती है कि क्या सीखा गया, क्या सुधारा गया, किस दृष्टिकोण की पुष्टि हुई, और उनमें से प्रत्येक चीज़ क्यों मायने रखती थी। महत्वपूर्ण रूप से, यह केवल वही रिकॉर्ड करता है जो रिपॉजिटरी या चैट इतिहास पहले से रिकॉर्ड नहीं करता है। डुप्लिकेट को संचित करने के बजाय मर्ज किया जाता है। जो नोट्स गलत साबित होते हैं, उन्हें केवल छोड़ा नहीं जाता, बल्कि हटा दिया जाता है।

एक लंबी परियोजना की शुरुआत में इसे स्थापित करने के लिए व्यावहारिक प्रॉम्प्ट:

"[फ़ोल्डर] में एक मेमोरी सिस्टम बनाए रखें। शीर्ष पर एक-पंक्ति सारांश के साथ प्रति फ़ाइल एक सीख संग्रहीत करें। सुधार और पुष्टि किए गए दृष्टिकोणों को समान रूप से रिकॉर्ड करें, जिसमें यह भी शामिल है कि वे क्यों मायने रखते थे। वह जानकारी न सहेजें जो पहले से रिपॉजिटरी या चैट इतिहास में है। डुप्लिकेट बनाने के बजाय मौजूदा नोट्स को अपडेट करें। जो नोट्स गलत साबित हुए हैं, उन्हें हटा दें।"

महत्वपूर्ण कार्य सत्रों के अंत में, इसके साथ समाप्त करें:

"हमने जो सत्र किए हैं, उन पर विचार करें। मुख्य विषयों और सीखों की पहचान करने के लिए उप-एजेंटों का उपयोग करें, और उन्हें [फ़ोल्डर] में संग्रहीत करें। भविष्य के सत्रों की शुरुआत में [फ़ोल्डर] का संदर्भ लें।"

यह एक ज्ञानकोष बनाता है जो सत्र सीमाओं से परे रहता है, जो कि बहु-दिवसीय कार्यों में सुसंगतता बनाए रखने की फेबल 5 की क्षमता के पीछे वास्तविक तंत्र है। इसके बिना, प्रत्येक सत्र शून्य से शुरू होता है। इसके साथ, मॉडल प्रत्येक सत्र में पहले से ही जागरूक होकर प्रवेश करता है कि क्या सीखा गया है, किन दृष्टिकोणों को मान्य किया गया है, और किससे बचना है।

अंतिम प्रतिक्रिया निर्देश

लंबे स्वायत्त रन एक विशिष्ट विफलता मोड उत्पन्न करते हैं जिसे एंथ्रोपिक की गाइड सीधे संबोधित करती है। विस्तारित टूल उपयोग और बहु-चरणीय निष्पादन के बाद, मॉडल आंतरिक संदर्भ शॉर्टकट जमा करता है जो इसके अंतिम आउटपुट को उस व्यक्ति के लिए पार्स करना कठिन बना देता है जो हर कदम नहीं देख रहा था।

समस्या इस तरह दिखती है: फेबल 5 एक जटिल बहु-चरणीय माइग्रेशन पूरा करता है, फिर आंतरिक संक्षिप्ताक्षरों, तीर श्रृंखलाओं और आशुलिपि का उपयोग करके परिणाम का सारांश प्रस्तुत करता है जो केवल तभी समझ में आता है यदि आपने वास्तविक समय में प्रत्येक एजेंट आउटपुट का अनुसरण किया हो। उपयोगकर्ता, जो बस यह जानना चाहता था कि क्या माइग्रेशन सफल हुआ और आगे क्या करना है, उसे स्पष्ट उत्तर के बजाय एक तकनीकी डंप मिलता है।

समाधान किसी भी लंबे समय तक चलने वाले वर्कफ़्लो प्रॉम्प्ट में जोड़ा गया एक अंतिम प्रतिक्रिया बाधा है:

"इस कार्य के बाद अपनी अंतिम प्रतिक्रिया के लिए: पहले परिणाम बताएं, फिर मुख्य सहायक विवरण। उपयोगकर्ता-सामने वाले आउटपुट में कार्यशील संक्षिप्ताक्षर, आंतरिक लेबल या तीर श्रृंखलाएँ शामिल न करें। उपयोगकर्ताओं को परिणाम, साक्ष्य, यदि कोई जोखिम हों तो वे, और अगला कदम चाहिए।"

यह निर्देश आउटपुट को कम बुद्धिमान बनाने के बारे में नहीं है। यह मॉडल की आंतरिक कार्य प्रक्रिया को उस प्रतिक्रिया से अलग करने के बारे में है जो अंतिम उपयोगकर्ता को वास्तव में प्राप्त होती है। कार्य प्रक्रिया गहन होनी चाहिए। अंतिम प्रतिक्रिया साफ-सुथरी होनी चाहिए।

उप-एजेंट प्रतिनिधिमंडल पैटर्न

फेबल 5 जटिल कार्यों पर अपने स्वयं के उप-एजेंटों को जन्म दे सकता है और उनका समन्वय कर सकता है, लेकिन आधिकारिक गाइड नोट करता है कि इसे अच्छी तरह से करने के लिए स्पष्ट अनुमति और एक स्पष्ट हैंडऑफ़ संरचना की आवश्यकता होती है।

प्रतिनिधिमंडल पैटर्न जो सबसे अच्छे परिणाम देता है, उसमें तीन निर्देश एक साथ काम करते हैं। पहला, फेबल 5 को स्पष्ट रूप से बताएं कि उसे कब प्रतिनिधि बनाने की अनुमति है बनाम कब उसे स्वयं कार्य संभालना चाहिए। दूसरा, प्रत्येक उप-एजेंट को एक अस्पष्ट निर्देश के बजाय स्पष्ट सफलता मानदंडों के साथ एक विशिष्ट, सीमित दायरा दें। तीसरा, निर्दिष्ट करें कि समन्वयक एजेंट को उप-एजेंटों के चलने के दौरान क्या करना चाहिए, क्योंकि फेबल 5 उप-एजेंटों के वापस रिपोर्ट करने की प्रतीक्षा करने के बजाय उसी कार्य के स्वतंत्र भागों पर काम करना जारी रख सकता है।

जटिल शोध या कोडबेस कार्य के लिए एक व्यावहारिक पैटर्न:

"स्वतंत्र उप-कार्यों को उप-एजेंटों को सौंपें और उनके चलने के दौरान काम करना जारी रखें। प्रत्येक उप-एजेंट को एक विशिष्ट, सीमित दायरा और स्पष्ट सफलता मानदंड प्राप्त होना चाहिए। सभी के रिपोर्ट करने के बाद ही उप-एजेंट परिणामों को संश्लेषित करें। यदि कोई उप-एजेंट विफल हो जाता है या अपना दायरा पूरा नहीं कर पाता है, तो संश्लेषण में यह अनुमान लगाने के बजाय स्पष्ट रूप से रिपोर्ट करें कि क्या पाया गया होता।"

सबसे महत्वपूर्ण पंक्ति अंतिम है। फेबल 5 को अनुमानों के साथ लापता उप-एजेंट परिणामों को नहीं भरना चाहिए। यदि कोई उप-एजेंट विफल होता है, तो वह विफलता जानकारी है, और अंतिम संश्लेषण को इसे सटीक रूप से प्रतिबिंबित करने की आवश्यकता है।

सुरक्षा वर्गीकारक और फ़ॉलबैक

फेबल 5 में सुरक्षा वर्गीकारक शामिल हैं जो आक्रामक साइबर सुरक्षा तकनीकों, जीव विज्ञान और जीवन विज्ञान सामग्री, और मॉडल के संक्षेपित विचार के निष्कर्षण को लक्षित करते हैं। जब कोई अनुरोध इन वर्गीकारकों को ट्रिगर करता है, तो प्रतिक्रिया में त्रुटि के रूप में नहीं, बल्कि HTTP 200 के रूप में stop_reason "refusal" शामिल होता है।

एपीआई एकीकरण के लिए, इसका मतलब है कि आपकी त्रुटि हैंडलिंग को HTTP स्थिति से अलग stop_reason की जाँच करने की आवश्यकता है। एक अस्वीकृति एक विशिष्ट प्रतिक्रिया प्रकार के साथ एक सफल API कॉल है, न कि कोई विफलता। एंथ्रोपिक अस्वीकृतियों पर Opus 4.8 में स्वचालित फ़ॉलबैक के लिए SDK मिडलवेयर प्रदान करता है, और जहाँ कोई आउटपुट उत्पन्न नहीं हुआ था, वहाँ अस्वीकृतियों पर प्रॉम्प्ट-कैश लागत कवर की जाती है।

अधिकांश निर्माताओं के लिए व्यावहारिक निहितार्थ: एंथ्रोपिक के परीक्षण के अनुसार, अस्वीकृतियाँ सामान्य डेवलपर प्रश्नों के पाँच प्रतिशत से कम को प्रभावित करती हैं, लेकिन संवेदनशील डोमेन को छूने वाले सौम्य जीव विज्ञान या कोड समीक्षा कार्यों पर दिखाई दे सकती हैं। उत्पादन में तैनात करने से पहले अपने विशिष्ट वर्कफ़्लो का अस्वीकृति व्यवहार के लिए परीक्षण करने की अनुशंसा की जाती है, खासकर यदि आपके उपयोग के मामले में कोई भी चिह्नित डोमेन शामिल है।

माइथोस 5 जीव विज्ञान और रसायन विज्ञान वर्गीकारकों को रखते हुए साइबर सुरक्षा वर्गीकारकों को हटा देता है, और केवल प्रोजेक्ट ग्लासविंग भागीदारों के लिए उपलब्ध है। बाकी सभी के लिए, साइबर सुरक्षा से सटे कार्यों पर फेबल 5 का व्यवहार Opus 4.8 पर रूट होगा, जो फेबल मूल्य निर्धारण के बजाय Opus मूल्य निर्धारण पर उसी अनुरोध को संभालता है।

फेबल 5 में विज़न प्रॉम्प्टिंग

फेबल 5 की विज़न क्षमता Opus 4.8 से सार्थक रूप से उन्नत है, और आधिकारिक गाइड इसका प्रभावी ढंग से उपयोग करने के लिए विशिष्ट मार्गदर्शन प्रदान करता है।

मुख्य परिवर्तन: फेबल 5 घने तकनीकी चित्रों, वेब एप्लिकेशन और विस्तृत स्क्रीनशॉट की काफी अधिक सटीकता के साथ व्याख्या करता है, अक्सर उसी कार्य पर Opus 4.8 की तुलना में कम आउटपुट टोकन का उपयोग करता है। इसे अपलोड की गई छवि के पलटने, धुंधली होने या अन्यथा शोरगुल वाली होने पर सीधे खराब इनपुट की व्याख्या करने का प्रयास करने के बजाय सक्रिय रूप से bash और क्रॉप टूल का उपयोग करने के लिए भी प्रशिक्षित किया जाता है।

व्यावहारिक प्रॉम्प्टिंग निहितार्थ यह है कि आप फेबल 5 को बिना पूर्व-प्रसंस्करण के लाइव एप्लिकेशन से वास्तविक, कच्चे स्क्रीनशॉट पास कर सकते हैं। जहाँ Opus 4.8 को उपयोगी जानकारी निकालने के लिए साफ, उच्च-कंट्रास्ट छवियों की आवश्यकता थी, वहीं फेबल 5 गंदे इनपुट को संभालता है और सामग्री को पढ़ने का प्रयास करने से पहले क्रॉप या पुन: प्रसंस्करण करना जानता है।

विशेष रूप से कोडिंग वर्कफ़्लो के लिए, फेबल 5 अपने स्वयं के आउटपुट का मूल्यांकन करने के लिए विज़न का उपयोग कर सकता है। गाइड नोट करता है कि इसे स्क्रीनशॉट का उपयोग करके मूल डिज़ाइन या लक्ष्य के विरुद्ध कोडिंग कार्य की जाँच करने के लिए प्रशिक्षित किया जाता है, जिसका अर्थ है कि आप इसे एक डिज़ाइन मॉकअप और इसके द्वारा बनाए गए एक लाइव स्क्रीनशॉट दे सकते हैं और इसे अंतरों की पहचान करने के लिए कह सकते हैं। यह एक ऐसे लूप को बंद करता है जिसके लिए पहले दृश्य आउटपुट की तुलना करने वाले मानव समीक्षक की आवश्यकता होती थी।

UI या फ्रंटएंड कार्य के लिए एक व्यावहारिक प्रॉम्प्ट पैटर्न:

"यहाँ डिज़ाइन लक्ष्य और वर्तमान कार्यान्वयन का एक स्क्रीनशॉट है। अंतरों की पहचान करने और अंतर को पाटने के लिए आवश्यक परिवर्तन उत्पन्न करने के लिए विज़न का उपयोग करें। निष्कर्षों की रिपोर्ट करने से पहले किसी भी ऐसे क्षेत्र को क्रॉप और ज़ूम करें जहाँ तुलना अस्पष्ट है।"

क्रॉप और ज़ूम करने का स्पष्ट निर्देश शामिल करना उचित है क्योंकि यह उस bash टूल व्यवहार को अनलॉक करता है जो शोरगुल वाले इनपुट को संभालता है। इसके बिना, फेबल 5 इसे पूर्व-प्रसंस्करण करने के बजाय एक छोटे या धुंधले क्षेत्र की व्याख्या करने का प्रयास कर सकता है।

माइग्रेशन चेकलिस्ट

यदि आप किसी मौजूदा Opus 4.8 वर्कफ़्लो को फेबल 5 में स्थानांतरित कर रहे हैं, तो एंथ्रोपिक की गाइड स्पष्ट है कि मॉडल नामों की अदला-बदली करना पूर्ण माइग्रेशन नहीं है। फेबल 5 एकीकरण को उत्पादन-तैयार मानने से पहले निम्नलिखित क्षेत्रों की समीक्षा करने की आवश्यकता है।

टाइमआउट। Opus 4.8 प्रतिक्रिया गति के लिए निर्धारित कोई भी टाइमआउट उच्च प्रयास पर फेबल 5 के लिए बहुत छोटा होने की संभावना है। अपने स्टैक में प्रत्येक टाइमआउट का ऑडिट करें और परीक्षण से पहले उन्हें बढ़ाएँ।

अस्वीकृति हैंडलिंग। अपने API प्रतिक्रिया पार्सिंग में stop_reason "refusal" हैंडलिंग जोड़ें। यह एक विशिष्ट प्रतिक्रिया संरचना के साथ एक HTTP 200 है, न कि कोई त्रुटि। किसी भी डोमेन के लिए Opus 4.8 पर फ़ॉलबैक सेट करें जो सुरक्षा वर्गीकारकों को ट्रिगर कर सकता है।

सक्रियता बाधाएँ। किसी भी सिस्टम प्रॉम्प्ट में अनुरोधित कार्रवाइयों पर स्पष्ट बाधा जोड़ें जो स्वचालित या अप्राप्य संदर्भ में चलेगा। यह न मानें कि फेबल 5 उन्हीं सीमाओं का अनुमान लगाएगा जिनके भीतर Opus 4.8 संचालित होता था।

प्रगति सत्यापन। कुछ मिनटों से अधिक समय तक चलने वाले या टूल निष्पादन से जुड़े किसी भी वर्कफ़्लो के लिए, पहले उत्पादन रन से पहले अपने सिस्टम प्रॉम्प्ट में ऑडिट निर्देश जोड़ें।

मेमोरी संरचना। यदि वर्कफ़्लो कई सत्रों में चलेगा, तो पहले लंबे रन से पहले सीख फ़ाइल संरचना स्थापित करें और सत्र-समाप्ति चिंतन प्रॉम्प्ट जोड़ें।

अंतिम प्रतिक्रिया प्रारूप। किसी भी वर्कफ़्लो में पहले-परिणाम प्रतिक्रिया बाधा जोड़ें जो आउटपुट को सीधे अंतिम उपयोगकर्ताओं या डाउनस्ट्रीम सिस्टम में प्रस्तुत करता है जो साफ, संरचित पाठ की अपेक्षा करते हैं।

परीक्षण का दायरा। माइग्रेशन को पूर्ण चिह्नित करने से पहले, कम से कम एक ऐसे कार्य पर वर्कफ़्लो का परीक्षण करें जो Opus 4.8 के लिए वास्तव में कठिन या असंभव था। यह वह जगह है जहाँ आप देखेंगे कि क्या फेबल 5 कुछ मौलिक रूप से अलग कर रहा है या उच्च लागत पर समान गुणवत्ता उत्पन्न कर रहा है।

माइग्रेशन तब पूरा होता है जब इन छह क्षेत्रों में से प्रत्येक को संबोधित किया गया है और आपका सबसे कठिन वर्कफ़्लो पहले प्रयास में, बिना मैन्युअल हस्तक्षेप के, शुरू से अंत तक सफाई से चलता है।

वह अंतिम मानदंड, कठिन कार्य का पहले प्रयास में पूरा होना, यह वास्तविक बेंचमार्क है कि फेबल 5 माइग्रेशन करना सार्थक था या नहीं। यदि आपका सबसे जटिल वर्कफ़्लो अब एक एकल स्वायत्त रन में पूरा हो जाता है, जिसके लिए पहले कई सत्रों और मानवीय सुधार के कई दौरों की आवश्यकता होती थी, तो मॉडल वही कर रहा है जिसके लिए इसे बनाया गया था।

फेबल 5 में नई टीमों के लिए आधिकारिक गाइड की व्यावहारिक सिफारिश उस काम से शुरू करना है जिसे आप विश्वसनीय रूप से पूरा करने में असमर्थ रहे हैं, न कि उस काम से जिसे आप पहले ही हल कर चुके हैं।

एक ऐसा कार्य चुनें जिसके लिए पहले कई सत्रों और उनके बीच महत्वपूर्ण मानवीय हस्तक्षेप की आवश्यकता थी। फेबल 5 को पूरा संदर्भ, पूरा लक्ष्य और इस गाइड की बाधाएँ दें, जिसमें प्रगति सत्यापन निर्देश, सक्रियता बाधा और अंतिम प्रतिक्रिया प्रारूप निर्देश शामिल हैं। इसे xhigh प्रयास पर चलाएँ। यह जो उत्पन्न करता है, उसकी समीक्षा करें।

उस अनुभव और Opus 4.8 पर वही प्रॉम्प्ट चलाने के बीच का अंतर वह जगह है जहाँ फेबल 5 का वास्तविक मूल्य स्पष्ट हो जाता है। यदि आप वहाँ एक सार्थक अंतर देखते हैं, तो मॉडल वही कर रहा है जो इसे करने के लिए डिज़ाइन किया गया है। यदि कार्य समान लगते हैं, तो आप शायद उस श्रेणी में परीक्षण कर रहे हैं जहाँ दोनों मॉडल समान रूप से प्रदर्शन करते हैं, जो कि अधिकांश नियमित कार्य है, और आपको कठिन समस्याओं की ओर बढ़ना चाहिए।

फेबल 5 सभी उपयोग मामलों में Opus 4.8 का प्रतिस्थापन नहीं है। यह काम के उस उपसमूह के लिए एक विशेषज्ञ है जहाँ निरंतर स्वायत्तता, जटिल कार्यों पर पहली बार में सही होना, और लंबे संदर्भ में सुसंगतता सबसे अधिक मायने रखने वाले आयाम हैं।

बाकी सब चीज़ों के लिए, Opus 4.8 तेज़, सस्ता और पर्याप्त है।

क्लॉड के साथ निर्माण करने के बारे में अधिक जानकारी के लिए @cyrilXBT को फ़ॉलो करें।

Turn one viral article into a full content workflow

Collect the source, decode the pattern, create assets, draft the story, and distribute from one AI workspace.

Explore YouMind
क्रिएटर्स के लिए

अपने Markdown को एक साफ़-सुथरे 𝕏 आर्टिकल में बदलें

जब आप अपना लंबा कंटेंट पब्लिश करते हैं, तो इमेज, टेबल और कोड ब्लॉक को 𝕏 के लिए फ़ॉर्मेट करना मुश्किल होता है। YouMind पूरे Markdown ड्राफ़्ट को एक साफ़-सुथरे, पोस्ट के लिए तैयार 𝕏 आर्टिकल में बदल देता है।

Markdown से 𝕏 आज़माएँ

समझने के लिए और पैटर्न

हाल के वायरल लेख

और वायरल लेख देखें