Gemini 3.1 Flash Live के साथ रियल-टाइम कन्वर्सेशनल एजेंट बनाएं

@GoogleAIStudio
अंग्रेज़ी3 माह पहले · 26 मार्च 2026
2.7M
2.4K
341
72
4.8K

TL;DR

Google ने Gemini 3.1 Flash Live लॉन्च किया है, जो रियल-टाइम वॉयस और विज़न इंटरैक्शन के लिए एक लो-लेटेंसी मॉडल है। इसमें बेहतर इंस्ट्रक्शन-फॉलोइंग और 90 से अधिक भाषाओं के लिए सपोर्ट शामिल है।

आज, हम Google AI Studio में Gemini Live API के माध्यम से Gemini 3.1 Flash Live लॉन्च कर रहे हैं। Gemini 3.1 Flash Live डेवलपर्स को रियल-टाइम वॉइस और विज़न एजेंट बनाने में सक्षम बनाता है जो न केवल अपने आस-पास की दुनिया को प्रोसेस कर सकते हैं, बल्कि बातचीत की गति से प्रतिक्रिया भी दे सकते हैं।

यह लेटेंसी, विश्वसनीयता और अधिक स्वाभाविक लगने वाले संवाद में एक बड़ा बदलाव है, जो वॉइस-फर्स्ट AI की अगली पीढ़ी के लिए आवश्यक गुणवत्ता प्रदान करता है।

बेहतर लेटेंसी, विश्वसनीयता और गुणवत्ता का अनुभव करें

रियल-टाइम इंटरैक्शन के लिए, लेटेंसी का हर मिलीसेकंड बातचीत के प्राकृतिक प्रवाह को बाधित करता है जिसकी उपयोगकर्ता अपेक्षा करते हैं। नया मॉडल टोन, जोर और इरादे को बेहतर ढंग से समझता है, जिससे एजेंटों में प्रमुख सुधार होते हैं:

  • शोर भरे, वास्तविक दुनिया के वातावरण में उच्च कार्य पूर्णता दर: हमने लाइव बातचीत के दौरान बाहरी टूल को ट्रिगर करने और जानकारी देने की मॉडल की क्षमता में काफी सुधार किया है। ट्रैफ़िक या टेलीविज़न जैसी पर्यावरणीय आवाज़ों से प्रासंगिक भाषण को बेहतर ढंग से अलग करके, मॉडल पृष्ठभूमि के शोर को अधिक प्रभावी ढंग से फ़िल्टर करता है ताकि निर्देशों के प्रति विश्वसनीय और उत्तरदायी बना रहे।
  • बेहतर निर्देश-पालन: जटिल सिस्टम निर्देशों के पालन में काफी वृद्धि हुई है। आपका एजेंट अपने परिचालन सुरक्षा उपायों के भीतर रहेगा, भले ही बातचीत अप्रत्याशित मोड़ ले ले।
  • अधिक प्राकृतिक और कम-लेटेंसी संवाद: नवीनतम मॉडल लेटेंसी में सुधार करता है और 2.5 Flash Native Audio की तुलना में पिच और गति जैसी ध्वनिक बारीकियों को पहचानने में और भी अधिक प्रभावी है, जिससे रियल-टाइम बातचीत अधिक तरल और प्राकृतिक महसूस होती है।
  • बहुभाषी क्षमताएं: यह मॉडल रियल-टाइम मल्टी-मोडल बातचीत के लिए 90 से अधिक भाषाओं का समर्थन करता है।

Gemini Live API को क्रियाशील देखें

डेवलपर्स सक्रिय रूप से वॉइस एजेंट बना रहे हैं जो Gemini Flash Live मॉडल के साथ प्राकृतिक प्रवाह और गति से संवाद करते हैं और विश्वसनीय रूप से कार्रवाई करते हैं। यहां वास्तविक दुनिया के कुछ ऐप्स के उदाहरण दिए गए हैं जो अपने संवादात्मक इंटरैक्शन को संचालित करने के लिए मॉडल का उपयोग करते हैं:

Stitch

Gemini Live API का उपयोग करके, Stitch अब अपने उपयोगकर्ताओं को अपनी आवाज़ से डिज़ाइन करने में सक्षम बनाता है। एजेंट कैनवास और चयनित स्क्रीन को 'देख' सकता है और डिज़ाइन समीक्षा दे सकता है, विविधताएं बना सकता है और भी बहुत कुछ कर सकता है।

Google AI Studio - inline image

Hey Ato

इस डेमो में, बुजुर्गों के लिए AI साथी उपकरण, Ato, अपने उपयोगकर्ताओं के लिए दैनिक बातचीत को वास्तविक संबंधों में बदलने के लिए Gemini 3.1 Flash Live की बहुभाषी क्षमताओं का उपयोग करता है।

Google AI Studio - inline image

Wits End

देखें कि कैसे Weekend टीम अपने RPG - Wit’s end में Game Master में एक अद्वितीय नाटकीय स्वभाव जोड़ने के लिए Gemini 3.1 Flash Live के मजबूत चरित्र-चित्रण और मानव-समान प्रस्तुति को एकीकृत करती है।

Google AI Studio - inline image

0:52

एक विस्तारित एकीकरण पारिस्थितिकी तंत्र के साथ निर्माण करें

Live API उत्पादन वातावरण के लिए बनाया गया है, लेकिन वास्तविक दुनिया के सिस्टम को लाइव वीडियो स्ट्रीम से लेकर ऑन-डिमांड फोन कॉल तक विविध इनपुट को संभालने की आवश्यकता होती है।

WebRTC स्केलिंग या ग्लोबल एज रूटिंग की आवश्यकता वाले सिस्टम के लिए, हम रियल-टाइम वॉइस और वीडियो एजेंटों के विकास को सुव्यवस्थित करने के लिए हमारे पार्टनर एकीकरणों का पता लगाने की सलाह देते हैं।

Google AI Studio - inline image

Live API के साथ शुरुआत करें**

Gemini 3.1 Flash Live आज से Gemini API और Google AI Studio में उपलब्ध है। डेवलपर्स अपने एप्लिकेशन में मॉडल को एकीकृत करने के लिए Gemini Live API का उपयोग कर सकते हैं।

इसे देखें


वीडियो ट्यूटोरियल

Gemini 3 के साथ वॉइस एजेंट बनाने के लिए:

रियल-टाइम एजेंट बनाने का तरीका जानने के लिए हमारे डेवलपर दस्तावेज़ देखें।

  • Gemini Live API दस्तावेज़: बहुभाषी समर्थन, टूल उपयोग और फ़ंक्शन कॉलिंग, सत्र प्रबंधन (लंबे समय तक चलने वाली बातचीत के प्रबंधन के लिए) और एफेमरल टोकन जैसी सुविधाओं का अन्वेषण करें।
  • Gemini Live API उदाहरण: उस तरह के वॉइस अनुभवों के लिए प्रेरणा प्राप्त करें जो आप आज मॉडल के साथ बना सकते हैं।
  • Gemini Live API Skill: कोडिंग एजेंटों के लिए Live API के साथ सीखने और निर्माण करने के लिए।

Google GenAI SDK के साथ शुरुआत करें:

python
1import asyncio
2from google import genai
3
4client = genai.Client(api_key="YOUR_API_KEY")
5
6model = "gemini-3.1-flash-live-preview"
7config = {"response_modalities": ["AUDIO"]}
8
9async def main():
10 async with client.aio.live.connect(model=model, config=config) as session:
11 print("Session started")
12 # Send content...
13
14if __name__ == "__main__":
15 asyncio.run(main())
Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind
क्रिएटर्स के लिए

अपने Markdown को एक साफ़-सुथरे 𝕏 आर्टिकल में बदलें

जब आप अपना लंबा कंटेंट पब्लिश करते हैं, तो इमेज, टेबल और कोड ब्लॉक को 𝕏 के लिए फ़ॉर्मेट करना मुश्किल होता है। YouMind पूरे Markdown ड्राफ़्ट को एक साफ़-सुथरे, पोस्ट के लिए तैयार 𝕏 आर्टिकल में बदल देता है।

Markdown से 𝕏 आज़माएँ

समझने के लिए और पैटर्न

हाल के वायरल लेख

और वायरल लेख देखें