शक्तिशाली वॉयस इंटरैक्शन के लिए बेहतर Gemini ऑडियो मॉडल

@GoogleAIStudio
अंग्रेज़ी7 माह पहले · 12 दिस॰ 2025
345K
1.5K
184
33
575

TL;DR

Google ने Gemini 2.5 Flash Native Audio को अपडेट किया है, जिससे जटिल वर्कफ़्लो और स्वाभाविक बातचीत को संभालने की इसकी क्षमता बेहतर हुई है, साथ ही 70 से अधिक भाषाओं के लिए लाइव स्पीच-टू-स्पीच अनुवाद की सुविधा भी शुरू की गई है।

आज, हम लाइव वॉइस एजेंटों के लिए एक अपडेटेड Gemini 2.5 Flash Native Audio जारी कर रहे हैं। यह अपडेट मॉडल की जटिल वर्कफ़्लो को संभालने, उपयोगकर्ता निर्देशों को नेविगेट करने और प्राकृतिक बातचीत करने की क्षमता में सुधार करता है।

Gemini 2.5 Flash Native Audio अब Google उत्पादों में उपलब्ध है, जिसमें Google AI Studio, Vertex AI शामिल हैं, और यह Gemini Live और Search Live में भी रोल आउट होना शुरू हो गया है, जो पहली बार Search Live में नेटिव ऑडियो की स्वाभाविकता ला रहा है। इसका मतलब है कि आप Gemini के साथ लाइव अधिक प्रभावी ढंग से विचार-मंथन कर सकते हैं, Search Live में रीयल-टाइम सहायता प्राप्त कर सकते हैं, या एंटरप्राइज़-रेडी कस्टमर सर्विस एजेंटों की अगली पीढ़ी का निर्माण कर सकते हैं।

सहायक एजेंटों को शक्ति प्रदान करने के अलावा, नेटिव ऑडियो वैश्विक संचार के लिए नई संभावनाएं खोलता है। हम लाइव स्पीच अनुवाद पेश कर रहे हैं, एक क्षमता जो हेडफ़ोन के लिए स्ट्रीमिंग स्पीच-टू-स्पीच अनुवाद सक्षम बनाती है। यह वक्ता के स्वर, गति और पिच को संरक्षित करता है। यह बीटा अनुभव आज से Google Translate ऐप में रोल आउट हो रहा है।

लाइव वॉइस एजेंट

Google AI Studio - inline image

Gemini 2.5 Flash Native Audio अब संवादात्मक अनुभवों की एक विस्तृत श्रृंखला को सक्षम कर रहा है।

सतहों और उत्पादों में उपयोग के मामलों की व्यापकता को सक्षम करने के लिए, हमने Gemini 2.5 Native Audio में तीन प्रमुख क्षेत्रों में सुधार किया है:

  • शार्पर फंक्शन कॉलिंग: हमने बाहरी फंक्शन को ट्रिगर करते समय मॉडल की विश्वसनीयता में सुधार किया है। यह अब अधिक सटीक रूप से पहचान सकता है कि बातचीत के दौरान रीयल-टाइम जानकारी कब लानी है और उस डेटा को ऑडियो प्रतिक्रिया में सहजता से शामिल कर सकता है, बिना प्रवाह को तोड़े। ComplexFuncBench Audio पर, एक मूल्यांकन जो विभिन्न बाधाओं के साथ मल्टी-स्टेप फंक्शन कॉलिंग को कैप्चर करता है, Gemini 2.5 Native Audio 71.5% के स्कोर के साथ आगे है।
  • मजबूत निर्देश पालन: मॉडल अब जटिल निर्देशों को संभालने में बेहतर है, जिसके परिणामस्वरूप सामग्री पूर्णता पर उच्च उपयोगकर्ता संतुष्टि होती है। डेवलपर निर्देशों के 90% पालन दर (84% से ऊपर) के साथ, यह अधिक विश्वसनीय आउटपुट प्रदान करता है।
  • स्मूथर बातचीत: हमने मल्टी-टर्न बातचीत की गुणवत्ता में महत्वपूर्ण लाभ प्राप्त किया है। Gemini 2.5 Flash Native Audio पिछले टर्न से संदर्भ को अधिक प्रभावी ढंग से प्राप्त करने में सक्षम है, जिससे अधिक सुसंगत बातचीत होती है।

ग्राहक क्या कह रहे हैं

Google AI Studio - inline image

अपडेटेड Gemini 2.5 Flash Native Audio का ComplexFuncBench पर पिछले संस्करणों और उद्योग प्रतिस्पर्धियों के मुकाबले प्रदर्शन

Google Cloud ग्राहक पहले से ही Gemini की नेटिव ऑडियो क्षमताओं का उपयोग करके वास्तविक व्यावसायिक परिणाम प्राप्त कर रहे हैं, मॉर्गेज प्रोसेसिंग से लेकर कस्टमर कॉल तक।

“उपयोगकर्ता अक्सर Sidekick का उपयोग करने के एक मिनट के भीतर भूल जाते हैं कि वे AI से बात कर रहे हैं, और कुछ मामलों में लंबी चैट के बाद बॉट को धन्यवाद देते हैं…Gemini [2.5 Flash Native Audio] के माध्यम से पेश की गई नई Live API AI क्षमताएं हमारे व्यापारियों को जीतने में सक्षम बनाती हैं।”



David Wurtz, VP of Product, Shopify

"Gemini 2.5 Flash Native Audio मॉडल को एकीकृत करके…हमने मई 2025 में लॉन्च करने के बाद से Mia की क्षमताओं में काफी सुधार किया है। इस शक्तिशाली संयोजन ने हमें अपने ब्रोकर पार्टनर्स के लिए 14,000 से अधिक ऋण उत्पन्न करने में सक्षम बनाया है।



"



Jason Bressler, Chief Technology Officer, United Wholesale Mortgage (UWM)

“Vertex AI के माध्यम से Gemini 2.5 Flash Native Audio मॉडल के साथ काम करना


Newo.ai

AI रिसेप्शनिस्ट बेजोड़ संवादात्मक बुद्धिमत्ता प्राप्त करने के लिए ... वे शोरगुल वाले वातावरण में भी मुख्य वक्ता की पहचान कर सकते हैं, बातचीत के बीच में भाषा बदल सकते हैं, और उल्लेखनीय रूप से प्राकृतिक और भावनात्मक रूप से अभिव्यंजक लग सकते हैं।”



David Yang, Co-founder,


Newo.ai

लाइव स्पीच अनुवाद

Gemini अब नई लाइव स्पीच-टू-स्पीच अनुवाद क्षमताओं का मूल रूप से समर्थन करता है जो निरंतर सुनने और दो-तरफा बातचीत दोनों को संभालने के लिए डिज़ाइन की गई हैं।

निरंतर सुनने के साथ, Gemini स्वचालित रूप से कई भाषाओं में भाषण का एकल लक्ष्य भाषा में अनुवाद करता है। यह आपको हेडफ़ोन लगाने और अपने आस-पास की दुनिया को अपनी भाषा में सुनने की अनुमति देता है।

दो-तरफा बातचीत के लिए, Gemini का लाइव स्पीच अनुवाद दो भाषाओं के बीच रीयल-टाइम में अनुवाद संभालता है, जो बोलने वाले के आधार पर आउटपुट भाषा को स्वचालित रूप से बदलता है। उदाहरण के लिए, यदि आप अंग्रेजी बोलते हैं और एक हिंदी बोलने वाले के साथ चैट करना चाहते हैं, तो आप अपने हेडफ़ोन में रीयल-टाइम में अंग्रेजी अनुवाद सुनेंगे, जबकि आपका फोन आपके बोलने के बाद हिंदी प्रसारित करेगा।

Gemini के लाइव स्पीच अनुवाद में कई प्रमुख क्षमताएं हैं जो वास्तविक दुनिया में मदद करती हैं:

  • भाषा कवरेज: Gemini मॉडल के विश्व ज्ञान और बहुभाषी क्षमताओं को इसकी नेटिव ऑडियो क्षमताओं के साथ जोड़कर 70 से अधिक भाषाओं और 2000 भाषा जोड़ियों में भाषण का अनुवाद करें।
  • शैली स्थानांतरण: मानव भाषण की बारीकियों को पकड़ता है, वक्ता के स्वर, गति और पिच को संरक्षित करता है ताकि अनुवाद स्वाभाविक लगे।
  • बहुभाषी इनपुट: एक ही सत्र में कई भाषाओं को एक साथ समझता है, जिससे आप भाषा सेटिंग्स के साथ छेड़छाड़ किए बिना बहुभाषी बातचीत का अनुसरण कर सकते हैं।
  • स्वतः पहचान: बोली जाने वाली भाषा की पहचान करता है और अनुवाद शुरू करता है, इसलिए अनुवाद शुरू करने के लिए आपको यह जानने की भी आवश्यकता नहीं है कि कौन सी भाषा बोली जा रही है।
  • शोर मजबूती: परिवेशी शोर को फ़िल्टर करता है ताकि आप तेज़, बाहरी वातावरण में भी आराम से बातचीत कर सकें।
Google AI Studio - inline image

2:49

आज से, आप इसे Google Translate ऐप में एक नए बीटा अनुभव में आज़मा सकते हैं अपने हेडफ़ोन में रीयल-टाइम अनुवाद के लिए उन्हें अपने डिवाइस से कनेक्ट करके और “Live translate” पर टैप करके। यह अनुभव अमेरिका, मैक्सिको और भारत में सभी Android उपकरणों पर रोल आउट हो रहा है, जल्द ही iOS और अधिक क्षेत्रों के लिए समर्थन के साथ।

प्रतिक्रिया के आधार पर, हम इस अनुभव पर पुनरावृति करना जारी रखेंगे और इसे 2026 में Gemini API जैसे अधिक Google उत्पादों में लाएंगे।

आज ही शुरू करें

आज ही Gemini 2.5 Flash Native Audio के साथ वॉइस एजेंट बनाना शुरू करें, जो अब Vertex AI पर सामान्य रूप से उपलब्ध है और Gemini API में पूर्वावलोकन के रूप में उपलब्ध है। हमारे डेवलपर दस्तावेज़ पढ़ें या इसे सीधे Google AI Studio में आज़माएं।

Gemini 2.5 Flash और 2.5 Pro टेक्स्ट-टू-स्पीच मॉडल Google AI Studio में Gemini API के माध्यम से भी उपलब्ध हैं। स्पीच जनरेशन दस्तावेज़ से शुरू करें, प्रॉम्प्टिंग गाइड देखें, या शुरू करने के लिए Gemini API Cookbook देखें।

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind

समझने के लिए और पैटर्न

हाल के वायरल लेख

और वायरल लेख देखें