Gemini 3.1 Flash Live के साथ रियल-टाइम कन्वर्सेशनल एजेंट बनाएं

आज, हम Google AI Studio में Gemini Live API के माध्यम से Gemini 3.1 Flash Live लॉन्च कर रहे हैं। Gemini 3.1 Flash Live डेवलपर्स को रियल-टाइम वॉइस और विज़न एजेंट बनाने में सक्षम बनाता है जो न केवल अपने आस-पास की दुनिया को प्रोसेस कर सकते हैं, बल्कि बातचीत की गति से प्रतिक्रिया भी दे सकते हैं।

यह लेटेंसी, विश्वसनीयता और अधिक स्वाभाविक लगने वाले संवाद में एक बड़ा बदलाव है, जो वॉइस-फर्स्ट AI की अगली पीढ़ी के लिए आवश्यक गुणवत्ता प्रदान करता है।

बेहतर लेटेंसी, विश्वसनीयता और गुणवत्ता का अनुभव करें

रियल-टाइम इंटरैक्शन के लिए, लेटेंसी का हर मिलीसेकंड बातचीत के प्राकृतिक प्रवाह को बाधित करता है जिसकी उपयोगकर्ता अपेक्षा करते हैं। नया मॉडल टोन, जोर और इरादे को बेहतर ढंग से समझता है, जिससे एजेंटों में प्रमुख सुधार होते हैं:

शोर भरे, वास्तविक दुनिया के वातावरण में उच्च कार्य पूर्णता दर: हमने लाइव बातचीत के दौरान बाहरी टूल को ट्रिगर करने और जानकारी देने की मॉडल की क्षमता में काफी सुधार किया है। ट्रैफ़िक या टेलीविज़न जैसी पर्यावरणीय आवाज़ों से प्रासंगिक भाषण को बेहतर ढंग से अलग करके, मॉडल पृष्ठभूमि के शोर को अधिक प्रभावी ढंग से फ़िल्टर करता है ताकि निर्देशों के प्रति विश्वसनीय और उत्तरदायी बना रहे।
बेहतर निर्देश-पालन: जटिल सिस्टम निर्देशों के पालन में काफी वृद्धि हुई है। आपका एजेंट अपने परिचालन सुरक्षा उपायों के भीतर रहेगा, भले ही बातचीत अप्रत्याशित मोड़ ले ले।
अधिक प्राकृतिक और कम-लेटेंसी संवाद: नवीनतम मॉडल लेटेंसी में सुधार करता है और 2.5 Flash Native Audio की तुलना में पिच और गति जैसी ध्वनिक बारीकियों को पहचानने में और भी अधिक प्रभावी है, जिससे रियल-टाइम बातचीत अधिक तरल और प्राकृतिक महसूस होती है।
बहुभाषी क्षमताएं: यह मॉडल रियल-टाइम मल्टी-मोडल बातचीत के लिए 90 से अधिक भाषाओं का समर्थन करता है।

Gemini Live API को क्रियाशील देखें

डेवलपर्स सक्रिय रूप से वॉइस एजेंट बना रहे हैं जो Gemini Flash Live मॉडल के साथ प्राकृतिक प्रवाह और गति से संवाद करते हैं और विश्वसनीय रूप से कार्रवाई करते हैं। यहां वास्तविक दुनिया के कुछ ऐप्स के उदाहरण दिए गए हैं जो अपने संवादात्मक इंटरैक्शन को संचालित करने के लिए मॉडल का उपयोग करते हैं:

Stitch

Gemini Live API का उपयोग करके, Stitch अब अपने उपयोगकर्ताओं को अपनी आवाज़ से डिज़ाइन करने में सक्षम बनाता है। एजेंट कैनवास और चयनित स्क्रीन को 'देख' सकता है और डिज़ाइन समीक्षा दे सकता है, विविधताएं बना सकता है और भी बहुत कुछ कर सकता है।

Hey Ato

इस डेमो में, बुजुर्गों के लिए AI साथी उपकरण, Ato, अपने उपयोगकर्ताओं के लिए दैनिक बातचीत को वास्तविक संबंधों में बदलने के लिए Gemini 3.1 Flash Live की बहुभाषी क्षमताओं का उपयोग करता है।

Wits End

देखें कि कैसे Weekend टीम अपने RPG - Wit’s end में Game Master में एक अद्वितीय नाटकीय स्वभाव जोड़ने के लिए Gemini 3.1 Flash Live के मजबूत चरित्र-चित्रण और मानव-समान प्रस्तुति को एकीकृत करती है।

0:52

एक विस्तारित एकीकरण पारिस्थितिकी तंत्र के साथ निर्माण करें

Live API उत्पादन वातावरण के लिए बनाया गया है, लेकिन वास्तविक दुनिया के सिस्टम को लाइव वीडियो स्ट्रीम से लेकर ऑन-डिमांड फोन कॉल तक विविध इनपुट को संभालने की आवश्यकता होती है।

WebRTC स्केलिंग या ग्लोबल एज रूटिंग की आवश्यकता वाले सिस्टम के लिए, हम रियल-टाइम वॉइस और वीडियो एजेंटों के विकास को सुव्यवस्थित करने के लिए हमारे पार्टनर एकीकरणों का पता लगाने की सलाह देते हैं।

Live API के साथ शुरुआत करें**

Gemini 3.1 Flash Live आज से Gemini API और Google AI Studio में उपलब्ध है। डेवलपर्स अपने एप्लिकेशन में मॉडल को एकीकृत करने के लिए Gemini Live API का उपयोग कर सकते हैं।

इसे देखें

वीडियो ट्यूटोरियल

Gemini 3 के साथ वॉइस एजेंट बनाने के लिए:

रियल-टाइम एजेंट बनाने का तरीका जानने के लिए हमारे डेवलपर दस्तावेज़ देखें।

Gemini Live API दस्तावेज़: बहुभाषी समर्थन, टूल उपयोग और फ़ंक्शन कॉलिंग, सत्र प्रबंधन (लंबे समय तक चलने वाली बातचीत के प्रबंधन के लिए) और एफेमरल टोकन जैसी सुविधाओं का अन्वेषण करें।
Gemini Live API उदाहरण: उस तरह के वॉइस अनुभवों के लिए प्रेरणा प्राप्त करें जो आप आज मॉडल के साथ बना सकते हैं।
Gemini Live API Skill: कोडिंग एजेंटों के लिए Live API के साथ सीखने और निर्माण करने के लिए।

Google GenAI SDK के साथ शुरुआत करें:

python

1import asyncio
2from google import genai
3
4client = genai.Client(api_key="YOUR_API_KEY")
5
6model = "gemini-3.1-flash-live-preview"
7config = {"response_modalities": ["AUDIO"]}
8
9async def main():
10    async with client.aio.live.connect(model=model, config=config) as session:
11        print("Session started")
12        # Send content...
13
14if __name__ == "__main__":
15    asyncio.run(main())

Gemini 3.1 Flash Live के साथ रियल-टाइम कन्वर्सेशनल एजेंट बनाएं

बेहतर लेटेंसी, विश्वसनीयता और गुणवत्ता का अनुभव करें