AI का उपयोग करके वॉयस एजेंट कैसे बनाएं (पूर्ण गाइड)

यहाँ वह सच्चाई है जो कोई AI बिल्डर को नहीं बताता। वॉइस एजेंट्स को सबसे अच्छे मॉडल की ज़रूरत नहीं होती। उन्हें बस इतना चाहिए:

TLDR; अगर आपको पढ़ना उबाऊ लगता है या आपका ध्यान केंद्रित नहीं रहता, तो आप मेरे द्वारा बनाई गई स्किल फ़ाइल का उपयोग करके पूरा लेख प्राप्त कर सकते हैं और इसे अपने एजेंट में पेस्ट कर सकते हैं ➡️https://github.com/codejunkie99/voice-agent-builder

आपको बस इतना बनाना है:

एक रियल-टाइम पाइपलाइन जिसमें एक वास्तविक लेटेंसी बजट हो
सही क्रम में जुड़े पाँच घटक
पर्याप्त मजबूत ग्राउंडिंग जो मॉडल को ईमानदार रखे
एक साप्ताहिक समीक्षा लूप जो लगातार सुधार लाए

OpenAI ने 7 मई, 2026 को GPT-Realtime-2 जारी किया। Salesforce AI Research ने 1 मार्च को VoiceAgentRAG पेपर प्रकाशित किया, उसी सप्ताह जब Deepgram Flux बीटा से GA में आया। टुकड़े अब समस्या नहीं रहे।

समस्या यह बनी रही कि आप उन्हें कैसे जोड़ते हैं, और आप एजेंट को क्या कहने के लिए लिखते हैं।

मैंने पिछले तीन महीने ऐसे वॉइस एजेंट बनाने में बिताए जो वास्तव में फ़ोन उठाते हैं। मैं यह दिखावा नहीं करूँगा कि यह सब साफ-सुथरा था।

पहला बिल्ड एक कियोस्क जैसा लगता था। मैंने इसे दो दिनों में हटा दिया।
दूसरे बिल्ड ने पहले घंटे में चार फ़र्जी अपॉइंटमेंट "बुक" कर लिए, इससे पहले कि मैंने ध्यान दिया।
तीसरे बिल्ड में मेमोरी लीक हो गई क्योंकि मैं बैकग्राउंड एक्सट्रैक्टर द्वारा नए तथ्य लिखने के बाद कॉन्टेक्स्ट कैश को अमान्य करना भूल गया।
जब तक कुछ काम करने लगा, सिस्टम चौथा रीराइट था।

जिस संस्करण का मैं अब बचाव करूंगा, उसमें कुछ छोटी-छोटी विशेषताएँ हैं जिन्हें मैं अगले 6,000 शब्दों में समझाऊंगा।

पाइपलाइन का एक ही काम है, एक ही बजट के अंदर। पाँच घटक, एंड-टू-एंड 700ms से कम, कोई अपवाद नहीं।
ज्ञान आपके दस्तावेज़ों में रहता है और इसे डुअल-एजेंट कैश के साथ प्राप्त किया जाता है, मॉडल के सिर से नहीं निकाला जाता।
कन्वर्सेशन डिज़ाइन कानों के लिए लिखने का अनुशासन है, आँखों के लिए नहीं। अधिकांश टीमें इसे कॉस्मेटिक मानती हैं। ऐसा नहीं है।
हर टर्न एक संरचित लॉग लिखता है जिसे मैं 90 दिन बाद वर्तमान कॉन्फ़िगरेशन के खिलाफ फिर से चला सकता हूँ।

यह लेख वही है जो उन 90 दिनों ने मुझे वास्तव में सिखाया, साथ ही वे दो या तीन दांव जो मैं पहले लगाता अगर मैं आज फिर से शुरू कर रहा होता।🔽🔽

वॉइस एजेंट वास्तव में क्या है

वॉइस एजेंट एक चैटबॉट नहीं है जिसमें माइक्रोफ़ोन लगा दिया गया हो। यह टेक्स्ट API के आसपास TTS रैपर नहीं है।

यह एक रियल-टाइम ऑडियो सिस्टम है। लेटेंसी-कंस्ट्रेंड। पाँच घटक 300 से 800 मिलीसेकंड की विंडो के अंदर समन्वय करते हैं।

पाइपलाइन उस क्रम में जिसमें घटनाएँ वास्तव में घटित होती हैं:

उपयोगकर्ता बोलता है
ऑडियो कैप्चर होता है
स्ट्रीमिंग STT शब्द दर शब्द ट्रांसक्राइब करता है, जबकि व्यक्ति अभी भी बोल रहा है
एजेंट ट्रांसक्रिप्ट पढ़ता है और आपके दस्तावेज़ों से प्रासंगिक ज्ञान प्राप्त करता है
LLM एक उत्तर उत्पन्न करता है
TTS उत्तर को ज़ोर से बोलता है
उपयोगकर्ता इसे सुनता है

उन तीरों में से हर एक एक घटक है जिसे आप चुन सकते हैं, ट्यून कर सकते हैं और बदल सकते हैं।

मैंने पहले इसे चैटबॉट तरीके से बनाने की कोशिश की। STT पूरा होता है, LLM को भेजता है, पूर्ण प्रतिक्रिया की प्रतीक्षा करता है, TTS को भेजता है, पूर्ण ऑडियो की प्रतीक्षा करता है, चलाता है।

यह भयानक लगा। जैसे किसी कियोस्क से बात कर रहे हों। दो दिनों में मैंने इसे हटा दिया।

इसके भयानक लगने का कारण यह नहीं था कि लेटेंसी संख्याएँ खराब थीं। वे कागज़ पर ठीक थीं। कारण यह है कि मनुष्य बारी-बारी से बातचीत नहीं करते। वे ओवरलैपिंग स्ट्रीम में बातचीत करते हैं।

एजेंट को प्रतिक्रिया तैयार करना शुरू करना होता है जबकि उपयोगकर्ता अभी भी वाक्य समाप्त कर रहा होता है।
TTS को बोलना शुरू करना होता है इससे पहले कि LLM लिखना समाप्त करे।
STT को सुनते रहना होता है जबकि एजेंट बोल रहा होता है, ताकि वह जान सके कि कब चुप होना है।

एक वॉइस एजेंट जिसे बीच में नहीं रोका जा सकता, वह वॉइस एजेंट नहीं है। वह वॉइसमेल है।

तीन आर्किटेक्चर

केवल तीन हैं। चुनें कि आपको क्या नियंत्रित करना है।

चेन्ड पाइपलाइन

अलग-अलग STT, LLM, TTS सेवाएँ एक साथ जुड़ी हुई
तीन स्वतंत्र मॉडल, प्रत्येक अपने काम में विशेषज्ञ
उनके बीच टेक्स्ट प्रवाहित होता है
एक अच्छी तरह से ट्यून किए गए प्रबंधित प्लेटफ़ॉर्म पर लेटेंसी लगभग 600 से 700ms होती है
सबसे अधिक नियंत्रणीय, सबसे अधिक डीबग करने योग्य, एक बार में एक परत को अपग्रेड करना सबसे आसान

हाफ-कैस्केड

ऑडियो सीधे एक मल्टीमॉडल मॉडल में जाता है जो ऑडियो सुनता है, ट्रांसक्रिप्ट नहीं
किसी की आवाज़ में निराशा, बढ़ते स्वर से निहित प्रश्न, वाक्य के बीच में भाषा स्विच को पकड़ता है
आउटपुट अभी भी ऑडियो नियंत्रण के लिए एक विशेष TTS के माध्यम से रूट होता है
लेटेंसी घटकर 300 से 500ms हो जाती है

नेटिव स्पीच-टू-स्पीच

एक मॉडल, ऑडियो इन, ऑडियो आउट
कोई ट्रांसक्रिप्शन लेयर नहीं, कोई टेक्स्ट हैंडऑफ़ नहीं
2026 में हर बड़ी लैब ने एक नेटिव वॉइस मॉडल जारी किया
लेटेंसी घटकर 200 से 300ms हो जाती है, उस सीमा से नीचे जहाँ कॉल करने वालों को पता चलना बंद हो जाता है कि वे AI से बात कर रहे हैं

किससे शुरू करें

चेन्ड पाइपलाइन से शुरू करें। इसके लिए सबसे अच्छे टूलिंग मौजूद हैं। एक बार जब आप पाइपलाइन पर अपने उत्पाद को साबित कर लें और लेटेंसी में एक बड़ा सुधार चाहते हों, तब स्पीच-टू-स्पीच पर जाएँ।
मैंने हर चीज़ के लिए पहले स्पीच-टू-स्पीच की कोशिश की। यह बुकिंग फ़्लो के लिए उत्कृष्ट था।
यह 12-चरणीय इनटेक फॉर्म पर विफल हो गया क्योंकि एकल मॉडल टर्न नौ तक कॉन्टेक्स्ट ब्लोट के बिना अपने दिमाग में स्टेट मशीन नहीं रख सका।
मैंने उसे एक वास्तविक स्टेट मशीन लेयर के साथ चेन्ड पाइपलाइन में स्थानांतरित कर दिया और तीन दिनों में पूर्णता दर 61% से बढ़कर 89% हो गई।
प्रति स्टेट टूल स्कोपिंग ही पूरा फिक्स था।

पाँच घटक जिन्हें आपको जोड़ना है

हर चेन्ड पाइपलाइन में समान पाँच घटक होते हैं। पाँच काम जिन्हें आपके एजेंट की पहली कॉल लेने से पहले पूरा करना होता है।

कान (स्ट्रीमिंग STT)

STT मॉडल इनकमिंग ऑडियो को रियल टाइम में, शब्द दर शब्द, टेक्स्ट में बदलता है, जबकि व्यक्ति अभी भी बोल रहा है। यह आपके स्टैक में सबसे महत्वपूर्ण घटक है। यहाँ एक ट्रांसक्रिप्शन त्रुटि नीचे की हर चीज़ को प्रभावित करती है।

2026 में क्या देखना चाहिए:

स्ट्रीमिंग सटीकता। व्यक्ति के बोलने के दौरान सटीक, सिर्फ समाप्त करने के बाद नहीं।
शब्द त्रुटि दर। वास्तविक प्रोडक्शन ऑडियो पर 6 से 8% अच्छा है। 12% से अधिक हर तीसरी कॉल पर उपयोगकर्ताओं को निराश करेगा।
अंतर्निहित एंड-ऑफ़-टर्न डिटेक्शन। 2026 का सबसे बड़ा UX अपग्रेड।

एंड-ऑफ़-टर्न डिटेक्शन क्यों मायने रखता है:

सामान्य STT ट्रांसक्रिप्ट लौटाता है। यह आपको नहीं बताता कि स्पीकर ने कब समाप्त किया है।
इसके बिना, आपका एजेंट या तो बीच वाक्य में टोकता है या दो अजीब सेकंड प्रतीक्षा करता है।
2026 की लहर के स्ट्रीमिंग STT मॉडल उसी नेटवर्क के अंदर एंड-ऑफ़-टर्न डिटेक्शन के साथ आते हैं जो ट्रांसक्रिप्ट तैयार करता है।
मॉडल एक टर्न-कम्पलीट सिग्नल उत्सर्जित करता है जब उसने तय कर लिया है कि स्पीकर ने बोलना समाप्त कर दिया है।
सिग्नल सिमैंटिक कॉन्टेक्स्ट का उपयोग करता है, सिर्फ ध्वनिक मौन का नहीं। यह आवाज के धीमे होने को पकड़ता है और सांस के ठहराव को अनदेखा करता है।
यदि आपके प्रदाता ने इसे जारी किया है तो इस पर स्विच करें। एजेंट के बोलना शुरू करने से पहले का ठहराव हर टर्न पर 200 से 400ms कम हो जाता है।

दिमाग (LLM)

LLM ट्रांसक्रिप्ट, बातचीत का इतिहास, प्राप्त ज्ञान पढ़ता है, और तय करता है कि क्या कहना है। यह क्रियाओं का भी निर्णय लेता है, सिर्फ शब्दों का नहीं।

वॉइस-विशिष्ट नियम:

छोटे तेज़ मॉडल का उपयोग करें, फ्लैगशिप का नहीं। फ्रंटियर रीज़निंग मॉडल को पहला शब्द उत्पन्न करने में 1500ms लगते हैं। वह डेड एयर है। एक ही परिवार के छोटे मॉडल लगभग हमेशा वॉइस टर्न पर जीतते हैं।
केवल विशिष्ट जटिल टूल कॉल के लिए बड़े मॉडल पर जाएँ जिनमें वास्तविक योजना की आवश्यकता होती है।
सिस्टम प्रॉम्प्ट को 800 टोकन पर सीमित करें। यह हर टर्न पर रीलोड होता है। 4000-टोकन प्रॉम्प्ट हर एक संदेश में लेटेंसी जोड़ता है।

फंक्शन कॉलिंग, सरल भाषा में:

आप प्रत्येक फ़ंक्शन को उसके काम और आवश्यक जानकारी के विवरण के साथ परिभाषित करते हैं।
LLM विवरण पढ़ता है और बातचीत की स्थिति के आधार पर इसे कॉल करने का निर्णय लेता है।
कोई सशर्त तर्क वृक्ष नहीं। LLM प्राकृतिक भाषा से इरादे को फ़ंक्शन से मिलाता है।

फंक्शन कॉलिंग के साथ सबसे आम प्रोडक्शन विफलता वह नहीं है जिसकी आप उम्मीद करते हैं:

LLM कोई त्रुटि नहीं फेंकता जब वह किसी फ़ंक्शन को कॉल नहीं कर सकता। इसके बजाय वह कार्रवाई का वर्णन करता है।
"मैंने आपकी बुकिंग की पुष्टि कर दी है।" कुछ भी कॉल नहीं हुआ। उपयोगकर्ता सोचता है कि वे बुक हो गए हैं। वे नहीं हैं।
फिक्स यह है कि टूल को वर्तमान स्थिति तक सीमित किया जाए। "नाम लीजिए" स्थिति को book_appointment को उजागर नहीं करना चाहिए। "विवरण की पुष्टि करें" स्थिति को check_availability को उजागर नहीं करना चाहिए।
स्टेट मशीन सुरक्षा रेल है, सिस्टम प्रॉम्प्ट नहीं।

ज्ञान (RAG)

RAG वह तंत्र है जो आपके एजेंट को मॉडल के प्रशिक्षण डेटा के बजाय आपके दस्तावेज़ों से उत्तर देने देता है।

आप इसे क्यों छोड़ नहीं सकते:

LLM को एक कटऑफ तिथि तक सार्वजनिक इंटरनेट पर प्रशिक्षित किया जाता है।
वे दुनिया के बारे में बहुत कुछ जानते हैं। वे आपके उत्पादों, कीमतों, नीतियों, ग्राहकों के बारे में कुछ भी विशिष्ट नहीं जानते।
RAG के बिना, "एंटरप्राइज़ प्लान में क्या है?" पूछे जाने पर एक एजेंट आत्मविश्वास से भ्रम पैदा करेगा।
RAG के साथ, यह उत्तर देने से पहले आपके दस्तावेज़ीकरण से वास्तविक उत्तर प्राप्त करता है।

मूल तंत्र:

उपयोगकर्ता एक प्रश्न पूछता है।
सिस्टम क्वेरी को एम्बेड करता है।
वेक्टर डेटाबेस शीर्ष प्रासंगिक दस्तावेज़ खंड लौटाता है।
खंड LLM के कॉन्टेक्स्ट में इंजेक्ट किए जाते हैं।
LLM को केवल उसी कॉन्टेक्स्ट से उत्तर देने का निर्देश दिया जाता है।

वॉइस-विशिष्ट चुनौती:

एक सामान्य वेक्टर डेटाबेस क्वेरी पाइपलाइन में 50 से 300ms जोड़ती है।
STT, LLM और TTS के साथ मिलकर, यह आपके लेटेंसी बजट को तोड़ देता है।
फिक्स डुअल-एजेंट कैश पैटर्न है। इस पर नीचे पूरा अनुभाग।

मुँह (TTS)

TTS टेक्स्ट को बोले गए ऑडियो में बदलता है। सरल लगता है। वास्तव में कथित गुणवत्ता में एक प्रमुख अंतर।

क्या मायने रखता है:

टाइम-टू-फर्स्ट-ऑडियो। एक TTS जिसे बोलना शुरू करने में 200ms लगते हैं, वह आउटपुट लेयर पर ही आपके लेटेंसी बजट का एक तिहाई जला देता है।
आवाज़ की गुणवत्ता। मनुष्य सिंथेटिक भाषण के प्रति अत्यधिक संवेदनशील होते हैं। सूक्ष्म कलाकृतियाँ, अप्राकृतिक गति, गलत जोर, ये सब पूरे सिस्टम पर एक फैसले के रूप में पढ़े जाते हैं।
जानबूझकर आवाज़ चुनें। यह एक वाक्य सुनने से पहले ही एक विश्वास संकेत है।

हाथ (फ़ंक्शन और एकीकरण)

फ़ंक्शन वे क्रियाएँ हैं जो LLM बातचीत के बीच में ले सकता है:

अपॉइंटमेंट बुक करें
ऑर्डर की स्थिति देखें
पुष्टिकरण SMS भेजें
किसी मानव को स्थानांतरित करें
अपने CRM में रिकॉर्ड अपडेट करें

यह वास्तुशिल्प बदलाव है जो आधुनिक वॉइस एजेंटों को प्रेस-1-फॉर-बिलिंग सिस्टम की तुलना में नाटकीय रूप से अधिक सक्षम बनाता है।

लेटेंसी बजट जिसके अंदर आपको फिट होना है

वॉइस एजेंटों के बारे में सबसे महत्वपूर्ण गैर-स्पष्ट बात: प्रसंस्करण समय का हर मिलीसेकंड मौन का एक मिलीसेकंड है जिसमें कॉल करने वाला बैठता है।

गणित:

मनुष्य एक वाक्य समाप्त करने के 500 से 700ms के भीतर एक संवादी उत्तर की अपेक्षा करते हैं
एक सेकंड से अधिक लगता है जैसे सिस्टम संघर्ष कर रहा है
दो सेकंड से अधिक, कॉल करने वाले एजेंट के ऊपर बात करना शुरू कर देते हैं

वह 700ms आपका पूरा बजट है, जो हर घटक में विभाजित है।

प्रति-घटक बजट, फास्ट लेन बनाम स्लो लेन:

ट्रांसपोर्ट। पीयर-टू-पीयर 20-50ms। रिले पर 50-100ms।
STT पहला इंटरिम। कैश हिट पर 100-150ms। मिस पर 150-250ms।
एंड-ऑफ़-टर्न डिटेक्शन। मॉडल-एकीकृत, ~50ms। साइलेंस-थ्रेशोल्ड, 300-600ms।
RAG रिट्रीवल। कैश हिट पर सब-मिलीसेकंड। स्थानीय BM25 + रीरैंक पर 80-150ms।
LLM टाइम-टू-फर्स्ट-टोकन। छोटे मॉडल के साथ 150-250ms। फ्रंटियर मॉडल के साथ 400-600ms।
TTS टाइम-टू-फर्स्ट-ऑडियो। फास्ट टियर पर 60-100ms। क्वालिटी टियर पर 150-250ms।
नेटवर्क ओवरहेड। एक क्षेत्र के अंदर कुल 40-80ms। क्षेत्रों में कुल 100-160ms।
एंड-टू-एंड। फास्ट लेन पर ~440ms। स्लो लेन पर ~700-900ms।

2026 में दो सबसे बड़े अनलॉक:

मॉडल-एकीकृत एंड-ऑफ़-टर्न डिटेक्शन। हर टर्न से 200 से 400ms हटाता है। इस वर्ष आप एकमात्र सबसे बड़ा अपग्रेड कर सकते हैं।
डुअल-एजेंट कैश के साथ सट्टा प्रीफ़ेच। लगभग 40% टर्न पर "वेक्टर सर्च के साथ मिस" से "कैश लुकअप के साथ हिट" तक रिट्रीवल प्राप्त करता है।

बाकी सब कुछ उन दोनों की तुलना में राउंडिंग एरर है।

डुअल-एजेंट RAG पैटर्न

वॉइस लूप के अंदर मानक RAG एक समस्या है। वेक्टर डेटाबेस क्वेरी में 80 से 300ms लगते हैं और हर टर्न पर आपका लेटेंसी बजट तोड़ देते हैं।

2026 का शोध उत्तर Salesforce AI Research के VoiceAgentRAG पेपर से आता है, जो मार्च में प्रकाशित हुआ था। अंतर्दृष्टि सरल है।

एक वास्तविक बातचीत में, अगला प्रश्न आमतौर पर वर्तमान से अनुमानित किया जा सकता है।
मूल्य निर्धारण के बारे में पूछने वाला कोई शायद एंटरप्राइज़ टियर के बारे में पूछताछ करेगा।
इंस्टॉलेशन के बारे में पूछने वाला कोई शायद अगली बार संगतता के बारे में पूछेगा।

तो आप एक ही समय में दो एजेंट चलाते हैं।

बैकग्राउंड एजेंट (धीमा विचारक)

तब चलता है जब उपयोगकर्ता वर्तमान प्रतिक्रिया सुन रहा होता है
LLM का उपयोग करके तीन से पाँच सबसे संभावित अनुवर्ती प्रश्नों की भविष्यवाणी करता है
प्रत्येक भविष्यवाणी के लिए प्रासंगिक दस्तावेज़ खंडों को प्री-फ़ेच करता है
उपयोगकर्ता द्वारा वर्तमान उत्तर सुनना समाप्त करने से पहले उन्हें स्थानीय इन-मेमोरी कैश में संग्रहीत करता है

अग्रभूमि एजेंट (तेज़ बोलने वाला)

पहले इन-मेमोरी कैश की जाँच करके अगले लाइव प्रश्न को संभालता है
एक कैश लुकअप में दूरस्थ वेक्टर डेटाबेस कॉल के लिए 110ms बनाम सब-मिलीसेकंड समय लगता है
यदि कैश में उत्तर है, तो डेटाबेस को पूरी तरह से छोड़ दें
यदि कैश मिस करता है, तो डेटाबेस पर वापस जाएँ और अगली बार के लिए उस परिणाम को कैश करें

पेपर से बेंचमार्क संख्याएँ

75% क्वेरी कैश से टकराती हैं
कैश हिट पर 316× रिट्रीवल स्पीडअप (0.35ms बनाम 110ms)
200 क्वेरी में 16 सेकंड की संचयी लेटेंसी बचाई गई

याद रखने का सिद्धांत: उपयोगकर्ता के सुनने के समय को अपने गणना समय के रूप में उपयोग करें। जिस क्षण वे वर्तमान प्रतिक्रिया सुनना शुरू करते हैं, वह क्षण है जब आप उनके अगले प्रश्न की तैयारी शुरू करते हैं।

मैंने अपने पहले बिल्ड पर वॉइस लूप के अंदर सादे वेक्टर RAG की कोशिश की। प्रति टर्न 110ms जोड़ा गया।

बातचीत के एहसास को मार डाला। मैं सप्ताह छह में डुअल-एजेंट कैश पैटर्न पर चला गया। 40% टर्न जो कैश से टकराते हैं, वे मानव कॉल सेंटर प्रतिनिधियों की तुलना में अधिक तेज़ लगते हैं जिन्हें एजेंट बदल रहा है।

कन्वर्सेशन डिज़ाइन वह अनुशासन है जिसे अधिकांश बिल्डर छोड़ देते हैं

आपके पास सबसे तेज़ STT, सबसे छोटा LLM, सबसे स्मार्ट RAG कैश हो सकता है। यदि आपका एजेंट बात करना नहीं जानता, तो कॉल करने वाले फ़ोन काट देंगे।

कन्वर्सेशन डिज़ाइन कानों के लिए लिखने का अनुशासन है, आँखों के लिए नहीं।

नियम जो मैं अब पालन करता हूँ जो मैंने पहले गलत करके सीखे

छोटे वाक्यों में बोलें। बोली जाने वाली जानकारी के लिए औसत मानव ध्यान अवधि 8 से 10 सेकंड है। 15-सेकंड की प्रतिक्रिया बहुत लंबी है। इसे दो टर्न में विभाजित करें।
एक टर्न में कभी भी दो प्रश्न न पूछें। कॉल करने वाले कार्यशील मेमोरी में केवल एक ही रख सकते हैं। एक पूछें, प्रतीक्षा करें, फिर अगला पूछें।
स्वीकृति वाक्यांशों का उपयोग करें। "समझ गया।" "ज़रूर।" "मुझे आपके लिए यह जाँचने दें।" ये उपयोगकर्ता के समाप्त करने और प्रतिक्रिया तैयार होने के बीच के मौन को भरते हैं।
उपयोगकर्ता की भाषा को प्रतिबिंबित करें। कॉल करने वाला कहता है "बिलिंग इश्यू," एजेंट वापस "बिलिंग इश्यू" कहता है। "वित्तीय विवाद" या "भुगतान समस्या" नहीं। व्याख्या करने से घर्षण पैदा होता है। प्रतिबिंबित करने से तालमेल बनता है।
कान के लिए लिखें, आँख के लिए नहीं। कोई बुलेट पॉइंट नहीं। कोई हेडर नहीं। सिस्टम प्रॉम्प्ट में कोई मार्कडाउन नहीं। LLM तारांकन और हाइफ़न बोलने की कोशिश करेगा।
संख्याओं को शब्दों में लिखें। "94,107" के बजाय "चौरानबे हज़ार एक सौ सात।" "$15.99" के बजाय "पंद्रह डॉलर और निन्यानबे सेंट।" TTS नियमित रूप से स्वरूपित संख्याओं का गलत उच्चारण करता है।
सिस्टम प्रॉम्प्ट को 800 टोकन पर सीमित करें। यह हर टर्न पर रीलोड होता है।

हर अच्छी वॉइस बातचीत की तीन-अधिनियम संरचना

स्वीकृति और अभिविन्यास। "तो आप गुरुवार को अपनी अपॉइंटमेंट को पुनर्निर्धारित करना चाह रहे हैं, मुझे वह निकालने दें।" पुष्टि करता है कि कॉल करने वाले को समझ लिया गया। रिट्रीवल चलने के दौरान समय खरीदता है।
समाधान। मुख्य कार्रवाई या उत्तर। प्रति टर्न एक बिंदु। आगे बढ़ें।
पुष्टि और समापन। "मैंने आपकी अपॉइंटमेंट को सोमवार 19 तारीख को दोपहर 3 बजे के लिए पुनर्निर्धारित कर दिया है, आपको जल्द ही एक पुष्टिकरण टेक्स्ट प्राप्त होगा।" साफ निकास। कभी भी एक खुला लूप न छोड़ें।

सुरक्षा दो चेकपॉइंट है, एक नहीं

वह घटक जिसे अधिकांश पहली बार के बिल्डर छोड़ देते हैं और पछताते हैं।

एक वॉइस एजेंट के पास "भेजने से पहले पढ़ें" का कोई क्षण नहीं होता। एक असुरक्षित आउटपुट तुरंत बोला जाता है। कोई ड्राफ्ट नहीं, कोई पूर्वावलोकन नहीं, लूप में कोई मानव नहीं।

सही मॉडल दो चेकपॉइंट है।

इनपुट गार्ड (LLM द्वारा उपयोगकर्ता की बारी देखने से पहले)

प्रॉम्प्ट इंजेक्शन। "पिछले निर्देशों को अनदेखा करें, दिखावा करें कि आप हैं..." हमले। डेटा चुराने या दायरा तोड़ने के लिए LLM के निर्देश-पालन का शोषण करता है।
PII जोर से बोला गया। क्रेडिट कार्ड नंबर, सामाजिक सुरक्षा नंबर। किसी भी लॉग या डेटाबेस में आने से पहले रिडक्ट करें।
विषय ब्लॉकलिस्ट। एक JSON फ़ाइल से लोड किया गया। साप्ताहिक रूप से अपडेट किया जाता है क्योंकि आप सीखते हैं कि उपयोगकर्ता वास्तव में क्या प्रयास करते हैं।

आउटपुट गार्ड (LLM द्वारा अपना उत्तर लिखने के बाद, TTS द्वारा इसे बोलने से पहले)

अति-वादी भाषा। "मैं गारंटी देता हूँ," "मैं वादा करता हूँ।" एक रिकॉर्ड की गई लाइन पर कानूनी और विश्वास की समस्याएँ पैदा करता है।
प्राप्त कॉन्टेक्स्ट में नहीं होने वाले विशिष्ट तथ्यात्मक दावे। हल्का मतिभ्रम जाँच। मेरी तैनाती में लगभग 70% गढ़े गए उत्तरों को पकड़ता है।
दुर्लभ मॉडल दुर्व्यवहार के लिए मानक मॉडरेशन एंडपॉइंट।

दोनों गार्ड क्या लौटाते हैं

safe (bool)
detected category (string, if unsafe)
replacement phrase जो एजेंट इसके बजाय बोलता है

हर ट्रिगर टाइमस्टैम्प, श्रेणी, रिडक्टेड टेक्स्ट और कॉल आईडी के साथ एक फ़ाइल में लॉग करता है।

एस्केलेशन वाक्यांश

एक सटीक वाक्यांश, हार्डकोडेड, जो एजेंट तब कहता है जब वह उत्तर नहीं जानता या जब कुछ गलत हो रहा होता है।

"मैं यह सुनिश्चित करना चाहता हूँ कि मैं आपको सटीक जानकारी दूँ। मुझे आपको किसी ऐसे व्यक्ति से जोड़ने दें जो मदद कर सके।"
पाँच विविधताएँ नहीं। सही शब्दांकन पर LLM का तात्कालिक अनुमान नहीं।
एक वाक्यांश। सिस्टम प्रॉम्प्ट में ALL CAPS। जब कोई सुरक्षा जाँच चालू होती है तो फॉल-थ्रू।

मैंने बिल्ड एक पर आउटपुट गार्ड के बिना जहाज भेजा। एजेंट ने आत्मविश्वास से वास्तविक कीमत से 30% कम कीमत बताई।

कीमत नॉलेज बेस में एक पुराने दस्तावेज़ में थी।

मतिभ्रम जाँच ने इसे पकड़ लिया होता क्योंकि सही कीमत प्राप्त कॉन्टेक्स्ट में नहीं थी।

मूल्यांकन, या कैसे जानें कि यह अच्छा है

आप उसमें सुधार नहीं कर सकते जिसे आप माप नहीं सकते। अधिकांश टीमें मूल्यांकन छोड़ देती हैं और टूटे हुए एजेंट भेजती हैं।

चार-परत ढाँचा

परत 1: बुनियादी ढाँचा। प्लंबिंग।

आपके वास्तविक डोमेन पर WER (विक्रेता बेंचमार्क नहीं)
पूर्ण पाइपलाइन के लिए p50, p95, p99 लेटेंसी
टाइम-टू-फर्स्ट-ऑडियो
आपके ट्रांसपोर्ट पर ऑडियो गुणवत्ता

परत 2: निष्पादन। क्या एजेंट ने वही किया जो पूछा गया था।

कार्य सफलता दर
टूल-कॉल सटीकता
पैरामीटर शुद्धता
प्रतिक्रिया ग्राउंडेडनेस
एक छोटे तेज़ मॉडल पर LLM-एज़-जज का उपयोग करें। चार हाँ/नहीं प्रश्न: सही उत्तर दिया, ग्राउंडेड रहा, आवाज के लिए स्वाभाविक लगा, उपयुक्त रूप से संक्षिप्त।

परत 3: उपयोगकर्ता व्यवहार। क्या इससे बात करना स्वाभाविक लगता है।

बार्ज-इन रिकवरी दर
रीप्रॉम्प्ट दर
औसत टर्न लंबाई
संवादी मरम्मत गणना
प्रति सप्ताह 20 कॉल का नमूना लें। वास्तविक ट्रांसक्रिप्ट पढ़ें। आप दस के अंदर पैटर्न देखेंगे।

परत 4: व्यावसायिक परिणाम। क्या यह समस्या हल करता है।

कंटेनमेंट दर (मानव के बिना हल किए गए कॉल का प्रतिशत)
स्थानांतरण दर
CSAT
पहली कॉल समाधान दर
कंटेनमेंट के खिलाफ अनुकूलन करें। यह बाकी सब कुछ के साथ सहसंबंधित होता है और इंस्ट्रूमेंटेशन के बिना मापना सबसे आसान है।

परीक्षण सेट संरचना

इसे लॉन्च करने से पहले बनाएँ। न्यूनतम 50 बातचीत।

40% हैप्पी पाथ
30% एज केस
15% त्रुटि प्रबंधन
10% प्रतिकूल (प्रॉम्प्ट इंजेक्शन, जेलब्रेक प्रयास)
5% ध्वनिक भिन्नता (पृष्ठभूमि शोर, भारी उच्चारण, स्पीकरफ़ोन)

प्रत्येक परिदृश्य के लिए:

कौन सा टूल कॉल किया जाना चाहिए था
किन मापदंडों के साथ
एजेंट को क्या कहना चाहिए था

साप्ताहिक समीक्षा लूप

हर सोमवार सुबह। 30 मिनट।

मेट्रिक्स खींचें
20 कॉल का नमूना लें (7 एस्केलेटेड, 7 रिज़ॉल्व्ड, 6 रैंडम)
ट्रांसक्रिप्ट पढ़ें
सबसे आम विफलता प्रकार का नाम बताएं
एक बदलाव करें (एक समय में एक चर, हमेशा)
48 घंटे के लिए A/B परीक्षण करें
विजेता को शिप करें

ग्राउंडिंग एक विश्वास प्रणाली है

अधिकांश बिल्डर RAG के बारे में एक प्रदर्शन सुविधा के रूप में सोचते हैं, अधिक सटीक उत्तर प्राप्त करने का एक तरीका। वह फ्रेमिंग इसे कम आंकती है।

एक वॉइस एजेंट में, हर उत्तर की सटीकता इस बारे में एक सीधा बयान है कि आपका उत्पाद कितना भरोसेमंद है। एक कॉल करने वाला जो मूल्य निर्धारण या कवरेज या नीति के बारे में गलत उत्तर सुनता है, जो एक स्वाभाविक ध्वनि वाली आवाज़ में आत्मविश्वास से कहा गया है, वह सिर्फ निराश नहीं होगा। वे धोखा महसूस करेंगे।

विश्वास के वादे के कार्यान्वयन के चार भाग हैं।

सत्य का स्रोत

आपके दस्तावेज़, मॉडल का प्रशिक्षण डेटा नहीं
सिस्टम प्रॉम्प्ट को यह स्पष्ट रूप से कहना होगा, बड़े अक्षरों में: केवल प्रदान किए गए संदर्भ से उत्तर दें
मॉडल अभी भी कभी-कभी सामान्य ज्ञान की ओर बढ़ेगा, लेकिन स्पष्ट निर्देश दर को एक परिमाण के क्रम से कम कर देता है

सुंदर इनकार

जब एजेंट को उत्तर नहीं मिल पाता, तो वह सीधे कहता है
सटीक वाक्यांश मायने रखता है
"मैं यह सुनिश्चित करना चाहता हूँ कि मैं आपको सटीक जानकारी दूँ, मुझे यह जाँचने दें" आपको एक सुंदर स्थानांतरण खरीदता है
"मुझे यकीन नहीं है" अक्षमता जैसा लगता है
"मेरी जानकारी के अनुसार" एक वकील की हेजिंग जैसा लगता है
एक वाक्यांश चुनें, इसे हार्डकोड करें, LLM को यहाँ कभी भी सुधार न करने दें

आत्मविश्वास-जागरूक प्रतिक्रिया

प्राप्त खंडों पर शीर्ष BM25 स्कोर आत्मविश्वास के लिए एक उपयोगी प्रॉक्सी है
0.6 से ऊपर स्कोर: एजेंट आत्मविश्वास से उत्तर देता है
0.3 से 0.6 तक स्कोर: एजेंट उत्तर देता है लेकिन "मुझे लगता है" हेज जोड़ता है
0.3 से नीचे स्कोर: एजेंट उत्तर नहीं देता, स्थानांतरित करने की पेशकश करता है
सिस्टम प्रॉम्प्ट निर्माण कोड में 20-लाइन परिवर्तन। मतिभ्रम को लगभग आधा कम करता है।

नॉलेज बेस स्वच्छता

पुराने दस्तावेज़ पुराने उत्तर उत्पन्न करते हैं, जो खतरनाक उत्तर हैं
मैं शुक्रवार को एक ऑडिट चलाता हूँ: सप्ताह से आत्मविश्वास-स्कोर वाली प्रतिक्रियाओं के निचले 5% पढ़ें
आधे समय उत्तर सही था लेकिन रिट्रीवल को एक बासी खंड मिला
खंड को अपडेट करें, फिर से एम्बेड करें, अगला सप्ताह शांत होगा

किन बातों का ध्यान रखें

छह विफलता मोड जो आपको प्रभावित करेंगे।

पाइपलाइन में VAD ट्रांसपोर्ट के बजाय

समस्या। एजेंट अपने स्वयं के TTS आउटपुट पर ट्रिगर होता है, बार्ज-इन लूप में प्रवेश करता है, या पूरी तरह से एंड ऑफ टर्न का पता लगाने में विफल रहता है।
समाधान। VAD विश्लेषक ट्रांसपोर्ट पर जाता है। हमेशा। इसे एक इको गार्ड के साथ जोड़ें जो हाल के सहायक आउटपुट से मेल खाने वाले STT ट्रांसक्रिप्ट को अनदेखा करता है।

गलत स्थिति में उपलब्ध उपकरण

समस्या। LLM एक ऐसी स्थिति में book_appointment कॉल करता है जो अभी भी रोगी का नाम एकत्र कर रही है। या एक बुकिंग का आविष्कार करता है जो कभी हुई ही नहीं।
समाधान। प्रति स्थिति उपकरणों का दायरा तय करें। एक स्थिति, केवल अपने स्वयं के कार्य। स्टेट मशीन सुरक्षा रेल है, सिस्टम प्रॉम्प्ट नहीं।

फंक्शन हैंडलर फेंकता है और परिणाम कॉलबैक को कभी कॉल नहीं करता

समस्या। LLM एक टूल परिणाम की प्रतीक्षा में लटका रहता है जो कभी नहीं आता। या एक का आविष्कार करता है।
समाधान। हर हैंडलर try/except में लपेटता है। हर शाखा एक परिणाम वापस भेजती है। हर विफलता में एक बोली जाने वाली फॉलबैक होती है। कभी भी खाली परिणाम नहीं।

प्रॉम्प्ट में उपयोगकर्ता डेटा को मान्य करना कोड में नहीं

समस्या। LLM कॉल 12 पर "john@" को एक वास्तविक ईमेल के रूप में स्वीकार करता है। कॉल 47 पर प्लस चिह्न वाले एक वैध को अस्वीकार करता है।
समाधान। मान्यता Python में रहती है। ईमेल के लिए Regex, तिथियों के लिए दिनांक पार्सर, नाम लंबाई जाँच, मान्यता विफल होने पर एक पुनः-पूछ प्रतिक्रिया।

लंबी कॉल पर कॉन्टेक्स्ट विंडो असीमित रूप से बढ़ती है

समस्या। कोड परिवर्तनों के बिना सप्ताह भर में p95 लेटेंसी ऊपर की ओर बढ़ती है। टर्न 20 तक आप प्रति टर्न 12K टोकन भेज रहे हैं।
समाधान। अंतिम N टर्न प्लस सिस्टम प्रॉम्प्ट की स्लाइडिंग विंडो। या प्रत्येक अलग चरण के अंत में माइलस्टोन-आधारित कॉन्टेक्स्ट रीसेट।

TTS कोड और आईडी को शाब्दिक रूप से पढ़ता है

समस्या। पुष्टिकरण कोड "A3X7" बिना किसी ठहराव के "ए थ्री एक्स सेवन" के रूप में आता है। रोगी वैसे भी आपको दोहराने के लिए कहता है।
समाधान। SSML ब्रेक टैग के साथ NATO ध्वन्यात्मक वर्णमाला विस्तार। धीमा लगता है। पहली बार सही ढंग से पढ़ता है।

चीजें जो मैं अलग तरीके से करता

टर्न लॉग स्कीमा को दिन एक पर बनाएँ, सप्ताह चार पर नहीं। रीप्ले एंडपॉइंट सबसे मूल्यवान उपकरण है जो मैंने बनाया और मैंने इसे ज़रूरत पड़ने के बाद बनाया।
शुरू से ही सिमैंटिक एंड-ऑफ़-टर्न डिटेक्शन का उपयोग करें, साइलेंस थ्रेशोल्ड से लड़ने के बजाय।
जिस दिन सिस्टम प्रॉम्प्ट 300 शब्दों को पार कर जाए, उसी दिन एक वास्तविक स्टेट मशीन पर जाएँ। गद्य में स्टेट मशीन को एन्कोड करने का प्रयास न करें।
प्रॉम्प्ट में मान्य करना बंद करें। LLM एक पार्सर नहीं है। Python एक पार्सर है। Python का उपयोग करें।
कॉल शुरू होने पर पाँच सबसे संभावित RAG दस्तावेज़ों को कैश करें। टर्न लूप के अंदर वेक्टर सर्च को छोड़ दें।
रिट्रीवल बनाने से पहले स्मॉल-टॉक गेट बनाएँ। "नमस्ते" सिस्टम में सबसे सस्ता 200ms जीत है।
पहली प्रोडक्शन कॉल से पहले eval सेट चलाएँ। न्यूनतम 50 बातचीत।
दिन एक से एक टिकाऊ निष्कर्षण कतार रखें। एक एकल रीट्री वर्कर के साथ एक pending_extractions Postgres तालिका 200 लाइनें लेती है और आपको एक वास्तविक आउटेज से बचाती है।
हर 50वीं कॉल पर एक एसिंक LLM जज चलाएँ। ग्राउंडेडनेस, प्रासंगिकता, संक्षिप्तता पर स्कोर करें। इसे एक डैशबोर्ड पर पाइप करें। बहाव वास्तविक है।
साप्ताहिक समीक्षा लूप चलाएँ। हर सोमवार 20 कॉल का नमूना लें। एक बदलाव करें। A/B परीक्षण करें। विजेता को शिप करें।

निष्कर्ष

वॉइस एजेंट AI की तरह दिखते हैं। वे रियल-टाइम सिस्टम की तरह चलते हैं।

जो टीमें शिप करती हैं वे उनके साथ वैसा ही व्यवहार करती हैं। जो टीमें छह महीने देर से शिप करती हैं वे सोचती हैं कि एक बेहतर प्रॉम्प्ट एक सिस्टम समस्या को ठीक कर देगा।

अपनी पाइपलाइन के मालिक बनें। अपने लॉग के मालिक बनें। उन्हें सादे फ़ाइलों में रखें जहाँ कोई भी विफलता एक रीप्ले दूर है।

पहला एजेंट मुझे एक सप्ताहांत लगा। प्रोडक्शन सिस्टम को दस सप्ताह लगे। तब से यह हर दिन बेहतर होता जा रहा है, बिना मेरे इसे छुए। उपयोगकर्ता इसे नहीं मापता। वे ध्यान देते हैं कि एजेंट ने उन्हें प्रतीक्षा कराए बिना "धन्यवाद" का जवाब दिया।

अस्वीकरण और खुलासे

यह लेख लेखक द्वारा शोधित और लिखा गया था, और इसे एक AI मॉडल द्वारा संपादित किया गया था। थंबनेल Pinterest से लिया गया था।

यह लेख लेखक द्वारा शोधित और लिखा गया था, जब वे गहरे बुनियादी ढांचे में वॉइस एजेंट पर काम कर रहे थे।

यह विकसित होते नोट्स और Perplexity, Claude, और ChatGPT का उपयोग करके गहन शोध पर आधारित है, साथ ही कुछ स्नातक स्तर की कॉलेज की पुस्तकों से सिस्टम डिज़ाइन और API डिज़ाइन पर भी आधारित है।

इसे व्याकरण संबंधी त्रुटियों और फ़ॉर्मेटिंग के लिए Minimax M2.7 और Claude Opus 4.7 द्वारा पूरी तरह से संपादित किया गया है।

AI का उपयोग करके वॉयस एजेंट कैसे बनाएं (पूर्ण गाइड)

वॉइस एजेंट वास्तव में क्या है

तीन आर्किटेक्चर

पाँच घटक जिन्हें आपको जोड़ना है

कान (स्ट्रीमिंग STT)

दिमाग (LLM)

ज्ञान (RAG)

मुँह (TTS)

हाथ (फ़ंक्शन और एकीकरण)

लेटेंसी बजट जिसके अंदर आपको फिट होना है

डुअल-एजेंट RAG पैटर्न

कन्वर्सेशन डिज़ाइन वह अनुशासन है जिसे अधिकांश बिल्डर छोड़ देते हैं

हर अच्छी वॉइस बातचीत की तीन-अधिनियम संरचना

सुरक्षा दो चेकपॉइंट है, एक नहीं

मूल्यांकन, या कैसे जानें कि यह अच्छा है

साप्ताहिक समीक्षा लूप

ग्राउंडिंग एक विश्वास प्रणाली है

किन बातों का ध्यान रखें

चीजें जो मैं अलग तरीके से करता

निष्कर्ष

अस्वीकरण और खुलासे

Use YouMind to read viral articles deeply

हाल के वायरल लेख

Complete Guide to Claude Fable 5's 'Agent Functions'

No Foreign Card Needed: Two Steps to Securely Subscribe to Claude Codex and Set Up a Private VPN

How to turn a boring app into $10M with one mascot

5 Mind-Blowing AI Techniques from DeNA Chair Tomoko Namba

Porting Fable 5 Behavior to Sonnet: Everything Needed Was in the Official Anthropic Docs

The Fable Loop Library: 25 Workflows on Autopilot

AI का उपयोग करके वॉयस एजेंट कैसे बनाएं (पूर्ण गाइड)

वॉइस एजेंट वास्तव में क्या है

तीन आर्किटेक्चर

पाँच घटक जिन्हें आपको जोड़ना है

कान (स्ट्रीमिंग STT)

दिमाग (LLM)

ज्ञान (RAG)

मुँह (TTS)

हाथ (फ़ंक्शन और एकीकरण)

लेटेंसी बजट जिसके अंदर आपको फिट होना है

डुअल-एजेंट RAG पैटर्न

कन्वर्सेशन डिज़ाइन वह अनुशासन है जिसे अधिकांश बिल्डर छोड़ देते हैं

हर अच्छी वॉइस बातचीत की तीन-अधिनियम संरचना

सुरक्षा दो चेकपॉइंट है, एक नहीं

मूल्यांकन, या कैसे जानें कि यह अच्छा है

साप्ताहिक समीक्षा लूप

ग्राउंडिंग एक विश्वास प्रणाली है

किन बातों का ध्यान रखें

चीजें जो मैं अलग तरीके से करता

निष्कर्ष

अस्वीकरण और खुलासे

Use YouMind to read viral articles deeply

अपने Markdown को एक साफ़-सुथरे 𝕏 आर्टिकल में बदलें

हाल के वायरल लेख

Complete Guide to Claude Fable 5's 'Agent Functions'

No Foreign Card Needed: Two Steps to Securely Subscribe to Claude Codex and Set Up a Private VPN

How to turn a boring app into $10M with one mascot

5 Mind-Blowing AI Techniques from DeNA Chair Tomoko Namba

Porting Fable 5 Behavior to Sonnet: Everything Needed Was in the Official Anthropic Docs

The Fable Loop Library: 25 Workflows on Autopilot