बहुभाषी दुनिया के लिए रियल-टाइम वॉयस AI का विकास

@stevejang
अंग्रेज़ी2 दिन पहले · 30 जून 2026
1.3M
108
24
5
39

TL;DR

Kindred Ventures ने Kotoba के लिए 10 मिलियन डॉलर की सीड फंडिंग का नेतृत्व किया है। Kotoba एक रिसर्च लैब है जो जापानी, कोरियाई और चीनी बाजारों के लिए विशेष रूप से रियल-टाइम वॉयस AI और ट्रांसलेशन मॉडल विकसित कर रही है।

सिलिकॉन वैली और इसी तरह के वैश्विक हब में रहने वाले हममें से कई लोग अच्छी तरह जानते हैं कि वॉयस एआई तेजी से लोगों के काम करने, संवाद करने और एजेंटों तथा एक-दूसरे के साथ बातचीत करने का नया मुख्य तरीका बन रहा है। यह बदलाव तब और स्पष्ट हो जाता है जब एजेंट सिस्टम कोडिंग से आगे बढ़कर नॉलेज वर्क के नए क्षेत्रों—जैसे Perplexity Computer और Claude Cowork—में प्रवेश कर रहे हैं, उपभोक्ता-सामना करने वाले एप्लिकेशन जैसे Wispr Flow, Sierra, और Granola, और विभिन्न कारों, रोबोटों और वियरेबल्स में एजेंट रूपों में शामिल हो रहे हैं। और फिर भी हमारे क्षेत्रीय दायरे से बाहर, दुनिया की कई सबसे महत्वपूर्ण भाषाओं को एक ऐसी चीज़ मान लिया गया है जिस पर बाद में ध्यान दिया जाएगा, और इन भाषाओं और उनके बोलने वालों के बीच अंतर्संबंध पर बहुत कम प्रगति हुई है।

वर्तमान गणना के अनुसार, एशिया में अब लगभग 5 अरब लोग रहते हैं। अकेले पूर्वी एशिया में 1.6 अरब लोग हैं—जो वैश्विक आबादी का 20% है। दुनिया भर के लगभग आधे नॉलेज वर्कर एक एशियाई भाषा बोलते हैं। स्पीच एआई मॉडलों का एक नया सेट, जिसे विशेष रूप से एशियाई भाषाओं के लिए प्रशिक्षित किया गया है, हमें वैश्विक बहुमत की पहुंच के भीतर वास्तव में मल्टीमॉडल इंटेलिजेंस हासिल करने में सक्षम बनाएगा।

सैकड़ों अलग-अलग भाषाओं के साथ, जिनमें से प्रत्येक की अपनी भाषाई बारीकियाँ और डेटा विशेषताएँ हैं, पूर्वी एशिया के लिए निर्माण करने के लिए अंग्रेजी-प्रथम मॉडल से आगे बढ़ने की आवश्यकता है: वैश्विक-प्रथम नॉलेज वर्क के भविष्य का निर्माण करने के लिए मॉडल प्रशिक्षण और बाजार विशेषज्ञता के लिए एक जमीनी स्तर के दृष्टिकोण की आवश्यकता है।

एक कदम पीछे हटते हुए, हम सभी देख रहे हैं कि एशिया में अग्रणी अनुसंधान का अधिकांश काम चीन में केंद्रित है, विशेष रूप से ओपन-वेट लार्ज लैंग्वेज मॉडल और जेनरेटिव मीडिया में। पिछले वर्ष जापान और कोरिया में, हम अब अनुसंधान प्रयोगशालाओं की एक नई लहर देख रहे हैं। ये शोध टीमें न केवल स्वदेशी बड़े भाषा मॉडल जैसे Upstage और Sakana के विविधताओं पर ध्यान केंद्रित कर रही हैं, बल्कि स्पीच मॉडल और वीडियो समझ के साथ मल्टीमॉडैलिटी विकसित करने वाली नई प्रयोगशालाओं और रोबोटिक इंटेलिजेंस और वर्ल्ड मॉडल के साथ भौतिक एआई पर भी ध्यान केंद्रित कर रही हैं।

आज, हम यह घोषणा करते हुए उत्साहित हैं कि @KindredVentures ने Kotoba (@kotoba_tech) में Salesforce @SalesforceVC और Sony Ventures (@Sony_Innov_Fund) के साथ $10 मिलियन के सीड राउंड का नेतृत्व किया। संस्थापकों के साथ प्रशिक्षण डेटा और मॉडल आर्किटेक्चर के बारे में हमारी शुरुआती बातचीत में, हम उनके उच्चतम गुणवत्ता वाले ASR और TTS मॉडलों से बहुत प्रभावित हुए, जो विभिन्न एजेंट पाइपलाइनों के लिए एकदम सही हैं, लेकिन ऑन-डिवाइस इंफ़रेंस के लिए छोटे एज मॉडलों पर उनकी शोध प्रगति और उनके अग्रणी स्पीच-टू-स्पीच रीयलटाइम अनुवाद मॉडल, जो Google, Microsoft और OpenAI के अनुवाद मॉडलों से बेहतर प्रदर्शन करते हैं।

@noriyuki_kojima (पीएचडी, @Cornell) और @jungokasai (पीएचडी, @UW) द्वारा स्थापित, @kotoba_tech पूर्वी एशियाई भाषाओं के लिए स्पीच एआई का निर्माण कर रहा है। अपने पिछले काम में, वे LLM-Fugaku प्रोजेक्ट नामक एक प्रारंभिक जापानी सरकारी और विश्वविद्यालय अनुसंधान परियोजना के सह-संस्थापक थे—जो Fugaku CPU-केवल सुपरकंप्यूटर पर निर्मित जापान की बड़े पैमाने की भाषा मॉडल पहल है। वे बिना किसी GPU, केवल CPU का उपयोग करके ट्रांसफॉर्मर आर्किटेक्चर का उपयोग करके एक जापानी LLM को सफलतापूर्वक प्रशिक्षित करने में सक्षम थे। आज Kotoba में, Koto का मालिकाना मॉडल परिवार जापानी, कोरियाई और चीनी भाषाओं में उद्योग-अग्रणी प्रदर्शन प्रदान करता है, जो AI वॉयस एजेंटों, उपकरणों, वियरेबल्स, रोबोटिक्स और रीयल-टाइम स्पीच अनुवाद और तर्क को उस सटीकता और विलंबता के साथ संचालित करता है जिसकी इन बाजारों को आवश्यकता है।

इस टीम के बारे में जो चीज़ लगातार सबसे अलग रही, वह थी विश्व स्तरीय शोध, पूर्वी एशिया में गहरी सांस्कृतिक प्रवीणता और एक ऐसा उत्पाद जो पहले से ही सार्थक गति दिखा रहा है, का दुर्लभ संयोजन। Kotoba के मॉडल अंग्रेजी-प्रथम सिस्टम के अनुकूलन नहीं हैं—वे एक अद्वितीय प्रशिक्षण दृष्टिकोण के साथ अपने द्वारा सेवा किए जाने वाले बाजारों की भाषाई वास्तविकताओं के लिए उद्देश्य-निर्मित हैं। अपने पहले मॉडल के रिलीज़ होने के केवल 6 महीने बाद, उनके मॉडल लगातार पश्चिमी कंपनियों के अन्य मॉडलों की तुलना में प्रोसोडी पर कम विलंबता और उच्च गुणवत्ता पर प्रदर्शन करते हैं। पहले छह महीनों में अपने मॉडलों को ग्राहकों को निजी रूप से जारी करते हुए, Kotoba अब कई Fortune 100 उद्यमों, वैश्विक हार्डवेयर कंपनियों और उच्च-विकास वाले AI-मूल स्टार्टअप को अपने शुरुआती ग्राहकों के रूप में गिनता है।

हम @noriyuki_kojima, @jungokasai और पूरी @kotoba_tech टीम के साथ साझेदारी करने के लिए रोमांचित हैं, क्योंकि वे जापान के लिए एक नई अग्रणी अनुसंधान प्रयोगशाला और व्यापक एशिया और शेष विश्व के लिए एक वॉयस AI प्लेटफॉर्म का निर्माण कर रहे हैं।

आप हमारे निवेश के बारे में नीचे और अधिक पढ़ सकते हैं:

https://kindredventures.com/announcement/kotoba-developing-voice-ai-for-a-multilingual-world/

Turn one viral article into a full content workflow

Collect the source, decode the pattern, create assets, draft the story, and distribute from one AI workspace.

Explore YouMind

समझने के लिए और पैटर्न

हाल के वायरल लेख

और वायरल लेख देखें