DeepSeek V4 के रिलीज़ ने पिछले साल जैसा उत्साह पैदा नहीं किया। वास्तव में, छह महीने पहले रिलीज़ हुए Claude Sonnet 4.5 की तुलना में, उनकी क्षमताएँ लगभग समान स्तर पर हैं, लेकिन अंतर छह महीने से कहीं अधिक है क्योंकि Sonnet 4.5 को छह महीने पहले केवल दूसरे स्तर का माना जाता था। हालाँकि, सोशल मीडिया लेखों में, हम अक्सर चीनी बड़े मॉडलों को तेजी से बेहतर बेंचमार्क डेटा उत्पन्न करते हुए देखते हैं, जिसमें "केवल छह महीने पीछे" या "मूल रूप से पकड़ लिया" के दावे हर जगह सुने जाते हैं।
चीन और अमेरिका के बीच AI अंतर की वास्तविक स्थिति क्या है?
22 अप्रैल को, "Into Asia" पॉडकास्ट में, पेकिंग विश्वविद्यालय में AI के सहायक प्रोफेसर झांग ची ने अपने अनुसार सच्चाई बताई। झांग ची वर्तमान में पेकिंग विश्वविद्यालय में सहायक प्रोफेसर हैं और हाल ही में ByteDance की मुख्य बड़े मॉडल टीम (Seed LLM) से इस्तीफा दे दिया है।
एक R&D पेशेवर के रूप में जिसने वास्तव में एक बड़ी तकनीकी कंपनी की अग्रिम पंक्तियों पर काम किया है, वर्तमान घरेलू AI के बारे में उनका निर्णय काफी चुभने वाला है:
"मैं इस दृष्टिकोण से सहमत नहीं हूँ कि चीनी मॉडल पकड़ रहे हैं। मेरा मानना है कि हम अभी भी बहुत पीछे हैं, और यह अंतर बढ़ सकता है।"
▸ झूठी समृद्धि: हर कोई "परीक्षा के लिए पढ़ा रहा है", लेकिन वास्तविक युद्ध का अभाव है
बाहरी दुनिया के लिए, विभिन्न तकनीकी दिग्गजों के मॉडल विभिन्न बेंचमार्क पर भयंकर लड़ाई में लगे हुए हैं, स्कोर बार-बार नई ऊँचाइयों को छू रहे हैं। लेकिन आंतरिक रूप से, यह बड़े मॉडलों के लिए सिर्फ एक बड़े पैमाने पर "परीक्षा-उन्मुख शिक्षा" है।
झांग ची ने साक्षात्कार में खुलासा किया कि ByteDance के अंदर (और उन्हें संदेह है कि अन्य बड़ी तकनीकी कंपनियाँ भी समान हैं), काम का माहौल वास्तव में अपेक्षाकृत "शांत" है (दो घंटे का लंच ब्रेक और प्रतिदिन लगभग 9 घंटे का वास्तविक कार्य समय), लेकिन हर किसी को एक अंतर्निहित KPI दबाव का सामना करना पड़ता है—Bench-maxing.
नेता विशिष्ट लीडरबोर्ड पर मॉडल स्कोर पर पूरा ध्यान देते हैं। यदि आपके द्वारा जिम्मेदार मॉड्यूल अग्रणी अमेरिकी मॉडलों के स्कोर से मेल नहीं खाता है, तो आपका प्रदर्शन मूल्यांकन बहुत खराब दिखेगा।
परिणाम: कागज पर डेटा बेहद शानदार है, लेकिन एक बार जब यह जटिल वास्तविक दुनिया के अनुप्रयोगों पर आता है, तो अनुभव निराशाजनक होता है।
▸ कंप्यूट और बुनियादी ढाँचे में खाई: दूसरों के लिए तीन महीने, हमारे लिए शायद आधा साल
हार्डवेयर बाधाएँ एक पुरानी कहानी हैं, लेकिन उनके कारण होने वाली श्रृंखला प्रतिक्रिया हमारी कल्पना से कहीं अधिक गहरी है।
वर्तमान में, घरेलू दिग्गज अपने मुख्य मॉडलों को प्रशिक्षित करने के लिए जो उपयोग करते हैं, उसका एक बड़ा हिस्सा अभी भी प्रतिबंध से पहले संग्रहीत NVIDIA चिप्स या अनुपालन H20 विशेष संस्करण हैं। सौभाग्य से, DeepSeek V4 से शुरू करके, Huawei Ascend ग्राफिक्स कार्ड में पूर्ण संक्रमण है, जिससे घरेलू प्रशिक्षण पारिस्थितिकी तंत्र में सुधार होने की उम्मीद है।
लेकिन कंप्यूटिंग शक्ति में अंतर पहले से ही सीधे "पुनरावृत्ति गति" में परिलक्षित होता है।
झांग ची ने एक उद्योग अफवाह का उल्लेख किया: Google को अब एक बड़े भाषा मॉडल के लिए पूर्व-प्रशिक्षण और पोस्ट-प्रशिक्षण का एक पूरा दौर पूरा करने में केवल 3 महीने लग सकते हैं। घरेलू दिग्गजों के लिए, कंप्यूटिंग शक्ति के पैमाने और बुनियादी ढाँचे द्वारा सीमित, यह चक्र आधे साल जितना लंबा हो सकता है।
अधिक छिपा हुआ है बुनियादी ढाँचे (Infra) में अंतर। झांग ची, जिन्होंने Google में इंटर्नशिप की, ने अफसोस जताया कि वहाँ का अंतर्निहित बुनियादी ढाँचा इतना अच्छा है कि शोधकर्ताओं को केवल एक सहज ग्राफिकल इंटरफेस पर कोड लिखना होता है, बिना अंतर्निहित आर्किटेक्चर की चिंता किए। घरेलू तकनीकी दिग्गजों में, प्रशिक्षण बार-बार फ्रीज होता है या त्रुटियाँ देता है; ये घर्षण लागत अदृश्य रूप से पकड़ने की गति को धीमा कर रही हैं।
▸ "उपयोगकर्ता सभी अमेरिकी मॉडल का उपयोग कर रहे हैं; हमें सुधार के लिए डेटा कहाँ से मिलेगा?"
यदि कंप्यूटिंग शक्ति चीनी AI पर लटकी पहली तलवार है, तो झांग ची के अनुसार, दूसरी तलवार—और वर्तमान में सबसे अनसुलझी—"डेटा फ्लाईव्हील" का टूटना है।
उन्होंने साक्षात्कार में एक बहुत ही तीखी अंतर्दृष्टि प्रस्तुत की: अग्रणी अमेरिकी मॉडलों ने एक सकारात्मक चक्र स्थापित किया है जिसे दूर करना बेहद मुश्किल है। GPT और Claude के पास विशाल वैश्विक उपयोगकर्ता आधार हैं। ये उपयोगकर्ता वास्तविक कार्य में मॉडल का उपयोग करते हैं और परिणामों को "पसंद" या "नापसंद" करते हैं। यह उच्च गुणवत्ता वाली प्रतिक्रिया वास्तविक दुनिया के परिदृश्यों के लिए सबसे कीमती प्रशिक्षण डेटा का गठन करती है।
इसके विपरीत, बुनियादी क्षमताओं में वस्तुनिष्ठ अंतर के कारण, सबसे अधिक AI सहायता की आवश्यकता वाले उच्च-मूल्य वाले उपयोगकर्ता—जैसे प्रोग्रामर और कट्टर शोधकर्ता—सामूहिक रूप से "दलबदल" कर रहे हैं।
"मैं अब मुख्य रूप से प्रोग्रामिंग के लिए Claude Code और Cursor का उपयोग करता हूँ," झांग ची ने स्पष्ट रूप से कहा। "मुझे ऐसा भी लगता है कि मुझे मेरी मदद करने के लिए इतने सारे PhD छात्रों को भर्ती करने की आवश्यकता नहीं है; मैं पूरी तरह से Claude Code और Cursor को अपने छात्रों के रूप में मान सकता हूँ। मैं उन्हें सलाह दे सकता हूँ और उन्हें वह करने के लिए निर्देश दे सकता हूँ जो मैं चाहता हूँ। लेकिन मैं दुविधा में भी हूँ: यदि मेरी पीढ़ी नए लोगों को प्रशिक्षित नहीं करती है, तो जब मैं बूढ़ा हो जाऊँगा तो शोध कौन जारी रखेगा?"
एक शीर्ष चीनी AI वैज्ञानिक का यह दैनिक विकल्प ठंडी वास्तविकता को दर्शाता है: जब शीर्ष चीनी डेवलपर्स जिन्हें घरेलू मॉडलों को प्रतिक्रिया डेटा देना चाहिए, वे सभी दक्षता बढ़ाने के लिए अमेरिकी मॉडल का उपयोग कर रहे हैं, तो चीनी बड़े मॉडल कंपनियों को प्रोग्रामिंग और तर्क क्षमताओं को अनुकूलित करने के लिए उच्च गुणवत्ता वाला इंटरैक्शन डेटा कहाँ से मिलेगा?
▸ शॉर्टकट लेने की कीमत: "डिस्टिल्ड" बुद्धिमत्ता में कोई आत्मा नहीं है
यदि बुनियादी ढाँचे को चमकाने का समय नहीं है और KPI को पकड़ने का तत्काल दबाव है, तो घरेलू दिग्गज क्या करते हैं?
जवाब एक शब्द है: डिस्टिलेशन।
यदि आप एक उच्च-बुद्धिमत्ता मॉडल को प्रशिक्षित करना चाहते हैं, तो सबसे कठिन तरीका अत्यधिक पेशेवर उद्योग विशेषज्ञों को काम पर रखना है ताकि वे स्ट्रोक दर स्ट्रोक उच्च गुणवत्ता वाला तर्क डेटा लिख सकें, जो महंगा और समय लेने वाला दोनों है।
लेकिन एक शॉर्टकट है: सीधे GPT, Claude, या Gemini से पूछें। सही उत्तर और तर्क प्रक्रिया प्राप्त करने के बाद, इसे कॉपी करें और अपने मॉडल को खिलाएँ। इसे AI सर्कल में "डिस्टिलेशन" के रूप में जाना जाता है—अनिवार्य रूप से शीर्ष छात्र का होमवर्क कॉपी करना।
झांग ची ने स्वीकार किया कि हम "डिस्टिलेशन" तकनीक में पहले से ही विश्व स्तरीय हो सकते हैं, लेकिन यह लंबे समय में वास्तविक लाभ में तब्दील नहीं हो सकता है। होमवर्क कॉपी करने से आप जल्दी से फेल होने से पास होने या 80 अंक प्राप्त करने में मदद कर सकते हैं, लेकिन आप कभी भी कॉपी करके सच्चे शीर्ष विद्वान नहीं बन सकते।
क्योंकि आपके पास अपनी गहरी डेटा पाइपलाइन का अभाव है। जब विदेशी मॉडल स्वायत्त रूप से विकसित होने लगते हैं, तो "शॉर्टकट" इसके बजाय बेड़ियाँ बन जाते हैं जो हमारी मूल क्षमताओं को बांधते हैं।
▸ एकमात्र शेष आत्मविश्वास: हार्डवेयर और "एम्बोडिड AI" का सपना
शुद्ध बड़े भाषा मॉडलों में पकड़ने की संभावनाओं के बारे में अपने मजबूत निराशावाद के बावजूद, झांग ची ने अभी भी चीन के AI पारिस्थितिकी तंत्र में कुछ संरचनात्मक लाभों की ओर इशारा किया।
उनके अनुसार, लाभ विनिर्माण में है। उन्होंने हाल ही में सार्वजनिक चर्चा उत्पन्न करने वाले Unitree का उल्लेख किया, यह मानते हुए कि चीन के पास हार्डवेयर बॉडी और मोटर मोशन कंट्रोल में वैश्विक प्रतिस्पर्धा है। वर्तमान में गर्म "एम्बोडिड AI" के बारे में, झांग ची का दृष्टिकोण यह है कि यदि आपका भाषा मॉडल केवल अपेक्षाकृत सरल कार्यों (जैसे वस्तुओं को पकड़ना) करने के लिए उपयोग किया जाता है, तो मौजूदा चीनी बड़े मॉडलों की क्षमताएँ "काफी अच्छी" हैं।
लेकिन उन्होंने ठंडा पानी भी डाला: वर्तमान में, रोबोट निर्माताओं का विशाल बहुमत अभी भी "मोशन कंट्रोल" चरण में अटका हुआ है और वास्तव में रोबोट के मस्तिष्क में बुद्धिमत्ता नहीं डाली है। एक बार जब जटिल तर्क और सामान्यीकृत "निपुण हेरफेर" शामिल हो जाता है, तो हमारे सामने वही छत आने की संभावना है जिसका सामना बड़े भाषा मॉडल वर्तमान में कर रहे हैं।
▸ भविष्य?
सीमित चिप्स, कमजोर डेटा पाइपलाइन, पिछड़ता बुनियादी ढाँचा, उपयोगकर्ता प्रतिक्रिया लूप की कमी, और डिस्टिलेशन पर अत्यधिक निर्भरता—ये समस्याएँ मिलकर एक तकनीकी सफलता से हल नहीं हो सकती हैं। सौभाग्य से, DeepSeek V4 पूरी तरह से घरेलू ग्राफिक्स कार्ड के लिए अनुकूलित है। हालाँकि समग्र क्षमता कुछ पीछे है, फिर भी एक बार पारिस्थितिकी तंत्र परिपूर्ण हो जाने पर, और डिस्टिलेशन पर निर्भर हुए बिना, पकड़ने की उम्मीद है।
मूल पॉडकास्ट लिंक: [https://www.buzzsprout.com/2546300/episodes/19057945-a-year-inside-bytedance-s-ai-lab](https://www.buzzsprout.com/2546300/episodes/19057945-a-year-inside-bytedance-s-ai-lab)





