आज, हम लाइव वॉइस एजेंटों के लिए एक अपडेटेड Gemini 2.5 Flash Native Audio जारी कर रहे हैं। यह अपडेट मॉडल की जटिल वर्कफ़्लो को संभालने, उपयोगकर्ता निर्देशों को नेविगेट करने और प्राकृतिक बातचीत करने की क्षमता में सुधार करता है।
Gemini 2.5 Flash Native Audio अब Google उत्पादों में उपलब्ध है, जिसमें Google AI Studio, Vertex AI शामिल हैं, और यह Gemini Live और Search Live में भी रोल आउट होना शुरू हो गया है, जो पहली बार Search Live में नेटिव ऑडियो की स्वाभाविकता ला रहा है। इसका मतलब है कि आप Gemini के साथ लाइव अधिक प्रभावी ढंग से विचार-मंथन कर सकते हैं, Search Live में रीयल-टाइम सहायता प्राप्त कर सकते हैं, या एंटरप्राइज़-रेडी कस्टमर सर्विस एजेंटों की अगली पीढ़ी का निर्माण कर सकते हैं।
सहायक एजेंटों को शक्ति प्रदान करने के अलावा, नेटिव ऑडियो वैश्विक संचार के लिए नई संभावनाएं खोलता है। हम लाइव स्पीच अनुवाद पेश कर रहे हैं, एक क्षमता जो हेडफ़ोन के लिए स्ट्रीमिंग स्पीच-टू-स्पीच अनुवाद सक्षम बनाती है। यह वक्ता के स्वर, गति और पिच को संरक्षित करता है। यह बीटा अनुभव आज से Google Translate ऐप में रोल आउट हो रहा है।
लाइव वॉइस एजेंट
Gemini 2.5 Flash Native Audio अब संवादात्मक अनुभवों की एक विस्तृत श्रृंखला को सक्षम कर रहा है।
सतहों और उत्पादों में उपयोग के मामलों की व्यापकता को सक्षम करने के लिए, हमने Gemini 2.5 Native Audio में तीन प्रमुख क्षेत्रों में सुधार किया है:
- शार्पर फंक्शन कॉलिंग: हमने बाहरी फंक्शन को ट्रिगर करते समय मॉडल की विश्वसनीयता में सुधार किया है। यह अब अधिक सटीक रूप से पहचान सकता है कि बातचीत के दौरान रीयल-टाइम जानकारी कब लानी है और उस डेटा को ऑडियो प्रतिक्रिया में सहजता से शामिल कर सकता है, बिना प्रवाह को तोड़े। ComplexFuncBench Audio पर, एक मूल्यांकन जो विभिन्न बाधाओं के साथ मल्टी-स्टेप फंक्शन कॉलिंग को कैप्चर करता है, Gemini 2.5 Native Audio 71.5% के स्कोर के साथ आगे है।
- मजबूत निर्देश पालन: मॉडल अब जटिल निर्देशों को संभालने में बेहतर है, जिसके परिणामस्वरूप सामग्री पूर्णता पर उच्च उपयोगकर्ता संतुष्टि होती है। डेवलपर निर्देशों के 90% पालन दर (84% से ऊपर) के साथ, यह अधिक विश्वसनीय आउटपुट प्रदान करता है।
- स्मूथर बातचीत: हमने मल्टी-टर्न बातचीत की गुणवत्ता में महत्वपूर्ण लाभ प्राप्त किया है। Gemini 2.5 Flash Native Audio पिछले टर्न से संदर्भ को अधिक प्रभावी ढंग से प्राप्त करने में सक्षम है, जिससे अधिक सुसंगत बातचीत होती है।
ग्राहक क्या कह रहे हैं

अपडेटेड Gemini 2.5 Flash Native Audio का ComplexFuncBench पर पिछले संस्करणों और उद्योग प्रतिस्पर्धियों के मुकाबले प्रदर्शन
Google Cloud ग्राहक पहले से ही Gemini की नेटिव ऑडियो क्षमताओं का उपयोग करके वास्तविक व्यावसायिक परिणाम प्राप्त कर रहे हैं, मॉर्गेज प्रोसेसिंग से लेकर कस्टमर कॉल तक।
“उपयोगकर्ता अक्सर Sidekick का उपयोग करने के एक मिनट के भीतर भूल जाते हैं कि वे AI से बात कर रहे हैं, और कुछ मामलों में लंबी चैट के बाद बॉट को धन्यवाद देते हैं…Gemini [2.5 Flash Native Audio] के माध्यम से पेश की गई नई Live API AI क्षमताएं हमारे व्यापारियों को जीतने में सक्षम बनाती हैं।”
David Wurtz, VP of Product, Shopify
"Gemini 2.5 Flash Native Audio मॉडल को एकीकृत करके…हमने मई 2025 में लॉन्च करने के बाद से Mia की क्षमताओं में काफी सुधार किया है। इस शक्तिशाली संयोजन ने हमें अपने ब्रोकर पार्टनर्स के लिए 14,000 से अधिक ऋण उत्पन्न करने में सक्षम बनाया है।
"
Jason Bressler, Chief Technology Officer, United Wholesale Mortgage (UWM)
“Vertex AI के माध्यम से Gemini 2.5 Flash Native Audio मॉडल के साथ काम करना
AI रिसेप्शनिस्ट बेजोड़ संवादात्मक बुद्धिमत्ता प्राप्त करने के लिए ... वे शोरगुल वाले वातावरण में भी मुख्य वक्ता की पहचान कर सकते हैं, बातचीत के बीच में भाषा बदल सकते हैं, और उल्लेखनीय रूप से प्राकृतिक और भावनात्मक रूप से अभिव्यंजक लग सकते हैं।”
David Yang, Co-founder,
लाइव स्पीच अनुवाद
Gemini अब नई लाइव स्पीच-टू-स्पीच अनुवाद क्षमताओं का मूल रूप से समर्थन करता है जो निरंतर सुनने और दो-तरफा बातचीत दोनों को संभालने के लिए डिज़ाइन की गई हैं।
निरंतर सुनने के साथ, Gemini स्वचालित रूप से कई भाषाओं में भाषण का एकल लक्ष्य भाषा में अनुवाद करता है। यह आपको हेडफ़ोन लगाने और अपने आस-पास की दुनिया को अपनी भाषा में सुनने की अनुमति देता है।
दो-तरफा बातचीत के लिए, Gemini का लाइव स्पीच अनुवाद दो भाषाओं के बीच रीयल-टाइम में अनुवाद संभालता है, जो बोलने वाले के आधार पर आउटपुट भाषा को स्वचालित रूप से बदलता है। उदाहरण के लिए, यदि आप अंग्रेजी बोलते हैं और एक हिंदी बोलने वाले के साथ चैट करना चाहते हैं, तो आप अपने हेडफ़ोन में रीयल-टाइम में अंग्रेजी अनुवाद सुनेंगे, जबकि आपका फोन आपके बोलने के बाद हिंदी प्रसारित करेगा।
Gemini के लाइव स्पीच अनुवाद में कई प्रमुख क्षमताएं हैं जो वास्तविक दुनिया में मदद करती हैं:
- भाषा कवरेज: Gemini मॉडल के विश्व ज्ञान और बहुभाषी क्षमताओं को इसकी नेटिव ऑडियो क्षमताओं के साथ जोड़कर 70 से अधिक भाषाओं और 2000 भाषा जोड़ियों में भाषण का अनुवाद करें।
- शैली स्थानांतरण: मानव भाषण की बारीकियों को पकड़ता है, वक्ता के स्वर, गति और पिच को संरक्षित करता है ताकि अनुवाद स्वाभाविक लगे।
- बहुभाषी इनपुट: एक ही सत्र में कई भाषाओं को एक साथ समझता है, जिससे आप भाषा सेटिंग्स के साथ छेड़छाड़ किए बिना बहुभाषी बातचीत का अनुसरण कर सकते हैं।
- स्वतः पहचान: बोली जाने वाली भाषा की पहचान करता है और अनुवाद शुरू करता है, इसलिए अनुवाद शुरू करने के लिए आपको यह जानने की भी आवश्यकता नहीं है कि कौन सी भाषा बोली जा रही है।
- शोर मजबूती: परिवेशी शोर को फ़िल्टर करता है ताकि आप तेज़, बाहरी वातावरण में भी आराम से बातचीत कर सकें।
2:49
आज से, आप इसे Google Translate ऐप में एक नए बीटा अनुभव में आज़मा सकते हैं अपने हेडफ़ोन में रीयल-टाइम अनुवाद के लिए उन्हें अपने डिवाइस से कनेक्ट करके और “Live translate” पर टैप करके। यह अनुभव अमेरिका, मैक्सिको और भारत में सभी Android उपकरणों पर रोल आउट हो रहा है, जल्द ही iOS और अधिक क्षेत्रों के लिए समर्थन के साथ।
प्रतिक्रिया के आधार पर, हम इस अनुभव पर पुनरावृति करना जारी रखेंगे और इसे 2026 में Gemini API जैसे अधिक Google उत्पादों में लाएंगे।
आज ही शुरू करें
आज ही Gemini 2.5 Flash Native Audio के साथ वॉइस एजेंट बनाना शुरू करें, जो अब Vertex AI पर सामान्य रूप से उपलब्ध है और Gemini API में पूर्वावलोकन के रूप में उपलब्ध है। हमारे डेवलपर दस्तावेज़ पढ़ें या इसे सीधे Google AI Studio में आज़माएं।
Gemini 2.5 Flash और 2.5 Pro टेक्स्ट-टू-स्पीच मॉडल Google AI Studio में Gemini API के माध्यम से भी उपलब्ध हैं। स्पीच जनरेशन दस्तावेज़ से शुरू करें, प्रॉम्प्टिंग गाइड देखें, या शुरू करने के लिए Gemini API Cookbook देखें।







