
2026 में मल्टी-एजेंट कोडिंग स्टैक कैसे बनाएं (पूर्ण कोर्स)
AI features
- Views
- 772K
- Likes
- 760
- Reposts
- 108
- Comments
- 55
- Bookmarks
- 2.6K
TL;DR
यह गाइड दिखाती है कि कैसे Kimi K2.6 का उपयोग हाई-वॉल्यूम कोडिंग कार्यों के लिए और Claude का उपयोग जटिल तर्क (reasoning) के लिए करके डेवलपर वर्कफ़्लो को ऑप्टिमाइज़ किया जाए, जिससे कम लागत में बेहतरीन परिणाम प्राप्त किए जा सकें।
Reading the हिन्दी translation
हर कोई इस बात पर बहस कर रहा है कि कौन सा AI कोडिंग एजेंट सबसे अच्छा है।
इसे सेव करें :)
Claude Code के प्रशंसक Claude को सबसे अच्छा मानते हैं। Cursor के प्रशंसक Cursor को। GPT के प्रशंसक GPT को। हर कोई एक पक्ष चुन लेता है और उसी पर अड़ा रहता है जैसे यह कोई धर्म हो।
इस बीच, जो डेवलपर्स वास्तव में सबसे ज़्यादा काम शिप कर रहे हैं, वे किसी एक टूल के प्रति वफादार नहीं हैं। वे कई एजेंट चला रहे हैं और हर कार्य को उस एजेंट को रूट कर रहे हैं जो सबसे कम लागत पर सबसे अच्छा आउटपुट देता है।
जब आप इसे ज़ोर से कहते हैं तो यह स्पष्ट लगता है।
लेकिन लगभग कोई भी ऐसा नहीं कर रहा है।
मैं भी लगभग दो हफ़्ते पहले तक ऐसा नहीं कर रहा था। मैं सब कुछ Claude Code से कर रहा था। टेस्ट लिखना, मॉड्यूल रिफैक्टर करना, बॉयलरप्लेट जनरेट करना, API बनाना, सब कुछ Claude के ज़रिए। और काम शानदार था। गुणवत्ता को लेकर मुझे कोई शिकायत नहीं है।
समस्या बिल थी।
जब आप पूरे दिन, हर दिन एजेंटिक कोडिंग टास्क चलाते हैं, तो टोकन की लागत तेज़ी से बढ़ती है। और $5 प्रति मिलियन इनपुट टोकन और $25 प्रति मिलियन आउटपुट टोकन पर, "पूरे दिन हर दिन" इतना महंगा हो जाता है कि आप यह सोचने लगते हैं कि एजेंट को कितना काम करने दें। जो पूरे उद्देश्य को ही खत्म कर देता है।
इसलिए मैंने एक ओपन-सोर्स विकल्प तलाशना शुरू किया। Claude को बदलने के लिए नहीं। बल्कि उन 80% कार्यों को संभालने के लिए जहाँ मुझे Claude-स्तर के तर्क की ज़रूरत नहीं थी और मैं अपनी वास्तविक ज़रूरत से ज़्यादा भुगतान कर रहा था।
उस खोज ने मुझे कुछ ऐसा दिखाया जिसकी मुझे उम्मीद नहीं थी।
मुझे क्या मिला (और मैंने इसे लगभग क्यों नज़रअंदाज़ कर दिया)
मैं ईमानदार रहूँगा। जब किसी ने पहली बार मुझसे Kimi K2.6 देखने को कहा, तो मैंने लगभग इसे खारिज कर दिया। बीजिंग के Moonshot AI का एक कोडिंग मॉडल? मुझे संदेह था।
फिर मैंने बेंचमार्क देखे।
Kimi K2.6 ने SWE-Bench Verified पर 80.2% स्कोर किया। Claude Opus 4.6 ने 80.8% स्कोर किया। GPT-5.2 ने 80.0% स्कोर किया।
ये संख्याएँ प्रभावी रूप से समान हैं। हम प्रतिशत अंकों के अंशों की बात कर रहे हैं जो उन मॉडलों को अलग करते हैं जिनकी कीमत में 7x का अंतर है।
फिर मैंने OpenRouter का प्रोग्रामिंग लीडरबोर्ड देखा। Kimi K2.6 #1 पर था।
फिर मैंने कीमत देखी। $0.80 प्रति मिलियन इनपुट टोकन। $3.60 प्रति मिलियन आउटपुट टोकन।
मेरे संदेह खत्म हो गए।
यह मॉडल एक टर्मिनल-फर्स्ट कोडिंग एजेंट के साथ आता है जिसे Kimi Code कहा जाता है। ओपन-सोर्स। Apache 2.0 लाइसेंस। GitHub पर पूरा सोर्स।
आप इसे निरीक्षण कर सकते हैं, संशोधित कर सकते हैं, सेल्फ-होस्ट कर सकते हैं। पूरी चीज़ आपके टर्मिनल से उसी तरह चलती है जैसे Claude Code चलता है।
मैंने इसे इंस्टॉल किया, एक वास्तविक प्रोजेक्ट पर लगाया, और परीक्षण शुरू किया।
मैंने इसे वास्तव में कैसे सेटअप किया
इंस्टॉल लगभग परेशान करने वाला सरल है।
आपको Python 3.10+ चाहिए और बस इतना ही। एक कमांड:
bash
1pip install kimi-code
फिर लॉन्च करें:
bash
1kimi
आप अंदर हैं। पहली बार यह आपसे /login चलाने के लिए कहेगा ताकि आप प्रमाणित हो सकें। उसके बाद, हर सत्र तुरंत शुरू होता है।
मैंने मार्केटप्लेस से VS Code एक्सटेंशन भी इंस्टॉल किया ताकि मैं इसे अपने एडिटर के अंदर उपयोग कर सकूं। यह Zed को मूल रूप से सपोर्ट करता है और ACP के ज़रिए Cursor और JetBrains के साथ एकीकृत होता है। तो आपका सेटअप जो भी हो, यह फिट हो जाता है।
कुल सेटअप समय: पाँच मिनट से भी कम।
दो-सप्ताह का परीक्षण
मैंने इसे एक वास्तविक परीक्षण दिया। कोई खिलौना प्रोजेक्ट नहीं। "मेरे लिए एक टू-डू ऐप लिखो" नहीं। मैंने इसे अपने वास्तविक वर्कफ़्लो से वास्तविक काम दिया।
यहाँ बताया गया है कि मैंने इसके माध्यम से क्या चलाया और क्या हुआ।
परीक्षण 1: स्क्रैच से एक पूर्ण REST API बनाएं
डेटाबेस मॉडल, प्रमाणीकरण, CRUD एंडपॉइंट, एरर हैंडलिंग और टेस्ट। इस तरह का कार्य आमतौर पर Claude पर एजेंट का दो से तीन घंटे का समय लेता है।
Kimi Code ने पहले पूरी संरचना की योजना बनाई। फिर इसे फ़ाइल दर फ़ाइल निष्पादित किया, अपने पिछले निर्णयों का संदर्भ लेते हुए। कोई भ्रमित इम्पोर्ट नहीं। कोई टूटी हुई निर्भरता नहीं। कोई फ़ाइल एक-दूसरे का खंडन नहीं कर रही थी।
K2.6 में एक थिंकिंग मोड है जहाँ यह कोड लिखने से पहले समस्या के बारे में तर्क करता है। यह नियोजन चरण ही अंतर है। यह सिर्फ़ जनरेट करना शुरू नहीं करता। यह पहले आर्किटेक्ट करता है। परिणाम एक कार्यशील API था जिसमें मामूली बदलावों की ज़रूरत थी, बड़ी सफाई की नहीं।
परीक्षण 2: 12 फ़ाइलों में एक मॉड्यूल को रिफैक्टर करें
यह वह जगह है जहाँ अधिकांश कोडिंग एजेंट पूरी तरह से विफल हो जाते हैं। वे फ़ाइल तीन में कुछ बदलते हैं जो फ़ाइल सात को तोड़ देता है, या वे ट्रैक खो देते हैं कि उन्होंने पहले से क्या संशोधित किया है।
K2.6 पूरे रास्ते सुसंगत रहा। इसने अपने औसत चरणों की संख्या को लगभग 35% कम कर दिया, जो मैं पहले देख रहा था उसकी तुलना में। कम अनावश्यक चरणों का मतलब है कम टोकन जलना, जिसका अर्थ है कि लागत बचत और भी बढ़ जाती है।
परीक्षण 3: मौजूदा कोडबेस के लिए टेस्ट सूट जनरेट करें
ग्रंट वर्क। बिल्कुल उस तरह का कार्य जिसके लिए मैं Claude को ओवरपे कर रहा था। Kimi Code ने इसे साफ-सुथरे तरीके से संभाला। फ्लैशी नहीं, क्रांतिकारी नहीं। बस ठोस, सुसंगत आउटपुट एक अंश लागत पर।
दो सप्ताह के बाद फैसला: मेरे दैनिक कोडिंग कार्यों के लगभग 85-90% के लिए, आउटपुट गुणवत्ता कार्यात्मक रूप से उससे अप्रभेद्य थी जो मुझे पहले मिल रही थी। बाकी 10-15%, गहन जटिल आर्किटेक्चरल रीजनिंग कार्य, मैं अभी भी Claude को रूट करता हूँ।
अपने अधिकांश काम पर लागत में वह 85% की कमी वृद्धिशील नहीं है। इसने मेरे संचालन के तरीके को बदल दिया।
MCP ट्रिक जिसने मेरे घंटे बचाए
यहाँ वह हिस्सा है जिसने संक्रमण को लगभग निर्बाध बना दिया।
Kimi Code बॉक्स से बाहर Model Context Protocol को सपोर्ट करता है। पूर्ण MCP संगतता। और कॉन्फ़िग फ़ॉर्मेट उसके साथ संगत है जो आप पहले से उपयोग कर रहे हैं।
इसलिए यदि आपके पास Claude Code या किसी अन्य टूल से मौजूदा MCP कॉन्फ़िग है, तो आप इसे एक कमांड में ला सकते हैं:
bash
1kimi --mcp-config-file your-existing-config.json
आपके सभी MCP सर्वर, आपके सभी टूल कनेक्शन, सब कुछ तुरंत स्थानांतरित हो जाता है।
या व्यक्तिगत रूप से सर्वर जोड़ें:
bash
1kimi mcp add --transport http context7 <https://mcp.context7.com/mcp>
जाँचें कि क्या कनेक्ट है:
bash
1kimi mcp list
कनेक्शन का परीक्षण करें:
bash
1kimi mcp test context7
आपका संपूर्ण टूल इकोसिस्टम आपके साथ चलता है। वह क्षण था जब मुझे एहसास हुआ कि यह कोई अलग-थलग प्रयोग नहीं था। यह सीधे उस सब कुछ से जुड़ गया जो मैंने पहले ही बनाया था।
वर्कफ़्लो कमांड जो मैं रोज़ उपयोग करता हूँ
एक बार जब आप एजेंट के अंदर होते हैं, तो ये वे कमांड और सुविधाएँ हैं जो दिन-प्रतिदिन वास्तव में मायने रखती हैं:
Ctrl-X - शेल मोड टॉगल करता है। एजेंट को छोड़े बिना कोई भी टर्मिनल कमांड चलाएँ। कोई विंडो स्विचिंग नहीं। कोई संदर्भ हानि नहीं। यह छोटा लगता है और यह जीवन बदलने वाला है।
/sessions - सत्र देखें और उनके बीच स्विच करें। वास्तविक सत्र प्रबंधन, "हर बार फिर से शुरू करें" नहीं।
--continue - अपने पिछले सत्र में जहाँ छोड़ा था, वहीं से फिर से शुरू करें।
/compact - यह कम सराहा गया है। जब आपका संदर्भ विंडो भर रहा होता है, /compact एजेंट को महत्वपूर्ण जानकारी को संरक्षित करते हुए बातचीत के इतिहास को संक्षेप में प्रस्तुत करने का निर्देश देता है। जगह खाली करता है ताकि आप नया सत्र शुरू किए बिना काम करना जारी रख सकें। स्टेटस बार में एक संदर्भ उपयोग संकेतक है ताकि आपको हमेशा पता चले कि इसका उपयोग कब करना है।
kimi --yolo - सभी फ़ाइल संशोधनों को स्वतः अनुमोदित करता है। इसका उपयोग केवल तब करें जब आपको भरोसा हो कि एजेंट क्या कर रहा है और आप अधिकतम गति चाहते हैं। अपरिचित कोडबेस पर खतरनाक। अपने स्वयं के प्रोजेक्ट पर अविश्वसनीय।
kimi acp - IDE एकीकरण के लिए ACP मोड में लॉन्च होता है। यदि आप Zed या JetBrains का उपयोग करते हैं, तो यह वह तरीका है जिससे आप कनेक्ट होते हैं।
वह सुविधा जिसने मेरी अपेक्षाओं को पार कर लिया
मुझे Agent Swarm के बारे में बात करनी है क्योंकि यह एक ऐसी सुविधा है जिसका अधिकांश डेवलपर्स द्वारा वर्तमान में उपयोग किए जा रहे टूल में कोई वास्तविक समकक्ष नहीं है।
Agent Swarm K2.6 को जटिल कार्यों पर समानांतर में काम करने वाले 100 उप-एजेंटों तक का समन्वय करने देता है। क्रमिक रूप से नहीं। समानांतर में।
वह उपयोग मामला जिसने मेरा जबड़ा गिरा दिया: किसी ने इसे 40 शैक्षणिक PDF खिलाए और पूरी तरह से उद्धृत डेटासेट के साथ 100,000-शब्दों की साहित्य समीक्षा वापस पाई। एक ही सत्र में।
अन्य वास्तविक उदाहरण जो लोग अभी चला रहे हैं:
- 100 नौकरी विवरणों को 100 व्यक्तिगत रूप से तैयार किए गए CV में संसाधित किया गया
- एक एकल खगोल भौतिकी पेपर को 20,000-पंक्ति डेटासेट और 14 प्रकाशन-ग्रेड चार्ट के साथ 40-पृष्ठ की रिपोर्ट में बदल दिया गया
- एक प्रॉम्प्ट ने वास्तविक ऐतिहासिक हेडलाइन्स के साथ 10 टैब्लॉइड-शैली के मैगज़ीन कवर जनरेट किए
यह बैच प्रोसेसिंग उस स्तर पर है जिसके लिए सामान्यतः कस्टम स्क्रिप्टिंग और मैन्युअल ऑर्केस्ट्रेशन के घंटों की आवश्यकता होगी। इसके बजाय यह एक प्रॉम्प्ट है।
Agent Swarm अभी वेब इंटरफ़ेस के माध्यम से चलता है और CLI सपोर्ट आ रहा है। यदि आपके पास कोई भी वर्कफ़्लो है जिसमें फ़ाइलों, दस्तावेज़ों या डेटा के बड़े बैचों को प्रोसेस करना शामिल है, तो यह अकेला आपके समय के लायक है।
वह हिस्सा जिसके बारे में कोई बात नहीं कर रहा: डिज़ाइन स्वाद
मैं फ्रंटएंड क्षमताओं का परीक्षण करने की योजना नहीं बना रहा था। मैं बैकएंड और टूलिंग पर केंद्रित था। लेकिन मेरे फ़ीड में किसी ने K2.6 के साथ बनाया गया एक पोर्टफोलियो साइट पोस्ट किया और मुझे विश्वास नहीं हुआ कि यह AI-जनरेटेड था।
इसलिए मैंने Kimi के एजेंट इंटरफ़ेस के माध्यम से स्वयं इसका परीक्षण किया।
K2.6 GLSL शेडर, WebGL, Three.js लिखता है। यह डिज़ाइन शब्दावली को समझता है। आप "ब्रूटलिस्ट" या "लिक्विड मेटल" या "सिनेमैटिक" कहते हैं और आउटपुट वास्तव में उन सौंदर्यशास्त्रों से मेल खाता है। सामान्य AI-स्लॉप तरीके से नहीं। ऐसे तरीके से जो दिखता है जैसे किसी मानव डिज़ाइनर ने इसे बनाया हो।
इसके द्वारा जनरेट किए गए वेब ऐप्स बिल्ट-इन डेटाबेस और प्रमाणीकरण के साथ आते हैं जो स्वचालित रूप से वायर्ड होते हैं। आपको एक स्थिर पेज नहीं मिल रहा है। आपको वास्तविक बैकएंड प्लंबिंग के साथ एक कार्यात्मक एप्लिकेशन मिल रहा है।
मैंने इसे शेडर-आधारित हीरो एनिमेशन के साथ एक पोर्टफोलियो साइट बनाने के लिए कहा। एक शॉट। आउटपुट की कीमत एक डिज़ाइन स्टूडियो से हजारों होती।
यह वह क्षण था जब मैंने K2.6 को "सिर्फ़ एक कोडिंग मॉडल" के रूप में सोचना बंद कर दिया। यह एक फुल-स्टैक क्रिएटिव टूल है।
अभी मेरा वास्तविक स्टैक
दो सप्ताह तक इस सेटअप को चलाने के बाद मेरा वर्कफ़्लो इस प्रकार दिखता है:
उच्च-मात्रा कोडिंग कार्य के लिए (रिफैक्टरिंग, टेस्ट, बॉयलरप्लेट, API, दस्तावेज़ीकरण, फ़ाइल प्रोसेसिंग) - मैं Kimi Code को रूट करता हूँ। यह मेरे दैनिक काम का लगभग 85% है। आउटपुट गुणवत्ता मेरी ज़रूरत से मेल खाती है। लागत मेरे भुगतान का एक अंश है।
जटिल आर्किटेक्चरल रीजनिंग के लिए (गहरी मल्टी-एजेंट ऑर्केस्ट्रेशन, अत्यधिक लंबे एजेंटिक लूप जिनमें अधिकतम विश्वसनीयता की आवश्यकता होती है, नवीन सिस्टम डिज़ाइन) - मैं Claude को रूट करता हूँ। यह दूसरे 15% है। सबसे कठिन रीजनिंग कार्यों पर Claude का अभी भी बढ़त है और जब मुझे इसकी आवश्यकता होती है तो मुझे इसके लिए भुगतान करने में कोई समस्या नहीं है।
बैच प्रोसेसिंग के लिए (कोई भी कार्य जिसमें बड़ी संख्या में फ़ाइलें, दस्तावेज़ या समानांतर निष्पादन शामिल है) - Agent Swarm। मेरे स्टैक में और कुछ भी ऐसा नहीं करता।
कुल परिणाम: मेरा साप्ताहिक API खर्च लगभग 85% कम हो गया। मेरा आउटपुट वॉल्यूम बढ़ गया क्योंकि मैंने एजेंट के उपयोग को राशन करना बंद कर दिया। मैं कम में अधिक, तेज़ी से शिप कर रहा हूँ।
यह "सर्वश्रेष्ठ" टूल खोजने के बारे में नहीं है। यह एक ऐसा स्टैक बनाने के बारे में है जहाँ हर कार्य सही टूल पर सही लागत पर चलता है।
ईमानदार मूल्यांकन
मैं आपको सीधा संस्करण देने जा रहा हूँ क्योंकि मुझे लगता है कि आप इसके हकदार हैं।
जहाँ K2.6 स्पष्ट रूप से जीतता है:
- लागत। Opus 4.7 से 7x सस्ता। GLM-5.1 से लगभग 50% सस्ता। समान प्रदर्शन स्तर पर। यह बहस का विषय नहीं है।
- ओपन-सोर्स। Hugging Face पर पूर्ण वेट। Apache 2.0। यदि चाहें तो सेल्फ-होस्ट करें। यदि आवश्यक हो तो संशोधित करें। कोई वेंडर लॉक-इन नहीं।
- बैच प्रोसेसिंग। Agent Swarm का Claude या GPT इकोसिस्टम में अभी कोई वास्तविक समकक्ष नहीं है।
- फ्रंटएंड डिज़ाइन। जनरेट किए गए वेब एप्लिकेशन की सौंदर्य गुणवत्ता वास्तव में बेस्ट-इन-क्लास है।
- दक्षता। K2.5 की तुलना में समान परिणाम तक पहुँचने के लिए 35% कम चरण। कम चरणों का मतलब है कम टोकन, जिसका मतलब है कम लागत।
जहाँ Claude अभी भी जीतता है:
- सबसे जटिल अंग्रेज़ी भाषा निर्देशों का पालन। जब कार्य में सैकड़ों एजेंटिक चरणों में अत्यधिक विस्तृत बाधाओं का पूर्ण पालन आवश्यक होता है, तो Claude अभी भी अधिक विश्वसनीय है।
- इकोसिस्टम परिपक्वता। Anthropic का डेवलपर इकोसिस्टम पश्चिम में अधिक स्थापित है।
- संदर्भ विंडो। Claude 1M टोकन तक प्रदान करता है। K2.6 262K प्रदान करता है। अधिकांश कार्यों के लिए 262K पर्याप्त से अधिक है। बड़े पैमाने पर कोडबेस विश्लेषण के लिए, Claude का लाभ है।
जहाँ यह वास्तव में बराबरी का मुकाबला है:
- SWE-Bench और मानक कोडिंग बेंचमार्क। संख्याएँ एक-दूसरे के अंशों के भीतर हैं। यहाँ विजेता घोषित करना बेईमानी होगी।
असली सवाल
2026 में AI कोडिंग एजेंट बाजार वफादारी के बारे में नहीं है। यह लीवरेज के बारे में है।
हर घंटा जो आप नियमित कोडिंग कार्यों को एक प्रीमियम-मूल्य वाली API के माध्यम से चलाने में बिताते हैं, जबकि एक ओपन-सोर्स मॉडल वही आउटपुट देता है, वह पैसा है जिसे आप आग लगा रहे हैं।
इस वर्ष जो डेवलपर आगे निकलने वाले हैं, वे वे हैं जो मल्टी-एजेंट स्टैक बनाते हैं। सही कार्य के लिए सही टूल सही कीमत पर। वे नहीं जो एक टीम चुनते हैं और कुछ और देखने से इनकार करते हैं।
दो हफ़्ते पहले मैं अपने 85% कोडिंग काम पर ज़रूरत से 7x अधिक खर्च कर रहा था।
अब मैं नहीं कर रहा हूँ।
उपकरण वहीं हैं। बेंचमार्क सार्वजनिक हैं। सेटअप में पाँच मिनट लगते हैं।
एकमात्र सवाल यह है कि क्या आप स्वयं इसका परीक्षण करेंगे या तब तक प्रतीक्षा करेंगे जब तक कि बाकी सब पहले न कर लें।
इसे पढ़ने वाले अधिकांश लोग हर कार्य के लिए पूरी कीमत चुकाते रहेंगे। जो लोग एक वास्तविक स्टैक बनाएंगे, वे 30 दिनों के भीतर उनके चारों ओर चक्कर लगा रहे होंगे।
मैं हर प्रमुख AI टूल और वर्कफ़्लो को तोड़ता हूँ ताकि आपको अकेले यह पता न लगाना पड़े।
मुझे फॉलो करें @eng_khairallah1 अधिक डेवलपर टूल, वर्कफ़्लो और तकनीकों के लिए। कोई फालतू बात नहीं। बस वही जो काम करता है।
उम्मीद है यह आपके लिए उपयोगी रहा होगा, खैरुल्लाह ❤️


