Gemini 3.1 Flash Live ile gerçek zamanlı konuşma aracıları oluşturun

Bugün, Google AI Studio üzerinden Gemini Live API aracılığıyla Gemini 3.1 Flash Live'ı kullanıma sunuyoruz. Gemini 3.1 Flash Live, geliştiricilerin yalnızca çevrelerindeki dünyayı işlemekle kalmayıp aynı zamanda konuşma hızında yanıt verebilen gerçek zamanlı ses ve görüntü aracıları oluşturmasına yardımcı olur.

Bu, gecikme süresi, güvenilirlik ve daha doğal sesli diyalogda bir adım değişikliği olup, yeni nesil ses öncelikli yapay zeka için gereken kaliteyi sunar.

Gelişmiş gecikme süresi, güvenilirlik ve kaliteyi deneyimleyin

Gerçek zamanlı etkileşimlerde, her milisaniyelik gecikme, kullanıcıların beklediği doğal konuşma akışını bozar. Yeni model, tonu, vurguyu ve amacı daha iyi anlayarak aracılara önemli iyileştirmeler sağlar:

Gürültülü, gerçek dünya ortamlarında daha yüksek görev tamamlama oranları: Modelin, canlı konuşmalar sırasında harici araçları tetikleme ve bilgi sunma yeteneğini önemli ölçüde geliştirdik. Model, trafik veya televizyon gibi çevresel seslerden ilgili konuşmayı daha iyi ayırt ederek arka plan gürültüsünü daha etkili bir şekilde filtreler ve talimatlara karşı güvenilir ve duyarlı kalır.
Daha iyi talimat takibi: Karmaşık sistem talimatlarına uyum önemli ölçüde artırıldı. Aracınız, konuşmalar beklenmedik yönlere sapasa bile operasyonel sınırları içinde kalacaktır.
Daha doğal ve düşük gecikmeli diyalog: En son model, gecikme süresini iyileştirir ve 2.5 Flash Native Audio'ya kıyasla perde ve hız gibi akustik nüansları tanımada daha etkilidir, bu da gerçek zamanlı konuşmaları çok daha akıcı ve doğal hale getirir.
Çok dilli yetenekler: Model, gerçek zamanlı çok modlu konuşmalar için 90'dan fazla dili destekler.

Gemini Live API'yi çalışırken görün

Geliştiriciler, Gemini Flash Live modelleriyle doğal bir akış ve hızla iletişim kuran ve güvenilir bir şekilde eylemler gerçekleştiren ses aracıları aktif olarak oluşturuyor. İşte modeli konuşma etkileşimlerini güçlendirmek için kullanan gerçek dünya uygulamalarından birkaç örnek:

Stitch

Stitch, Gemini Live API'yi kullanarak artık kullanıcılarının sesleriyle vibe tasarımı yapmasını sağlıyor. Aracı, tuvali ve seçilen ekranları 'görebilir', tasarım eleştirileri yapabilir, varyasyonlar oluşturabilir ve daha fazlasını yapabilir.

Hey Ato

Bu demoda, yaşlı yetişkinler için yapay zeka arkadaş cihazı Ato, günlük konuşmaları kullanıcıları için gerçek bağlantılara dönüştürmek amacıyla Gemini 3.1 Flash Live'ın çok dilli yeteneklerini kullanıyor.

Wits End

Weekend ekibinin, RPG oyunları Wit's end'deki Oyun Yöneticisine benzersiz bir teatral hava katmak için Gemini 3.1 Flash Live'ın güçlü karakterizasyonunu ve insan benzeri sunumunu nasıl entegre ettiğini görün.

0:52

Genişleyen bir entegrasyon ekosistemiyle oluşturun

Live API, üretim ortamları için oluşturulmuştur, ancak gerçek dünya sistemleri, canlı video akışlarından isteğe bağlı telefon görüşmelerine kadar çeşitli girdilerin işlenmesini gerektirir.

WebRTC ölçeklendirme veya küresel uç yönlendirme gerektiren sistemler için, gerçek zamanlı ses ve video aracılarının geliştirilmesini kolaylaştırmak amacıyla ortak entegrasyonlarımızı keşfetmenizi öneririz.

Live API ile başlayın**

Gemini 3.1 Flash Live, bugünden itibaren Gemini API ve Google AI Studio üzerinden kullanılabilir. Geliştiriciler, modeli uygulamalarına entegre etmek için Gemini Live API'yi kullanabilir.

Şuraya göz atın

video eğitimi

Gemini 3 ile ses aracıları oluşturmak için:

Gerçek zamanlı aracıları nasıl oluşturabileceğinizi öğrenmek için geliştirici dokümantasyonumuzu inceleyin.

Gemini Live API dokümantasyonu: Çok dilli destek, araç kullanımı ve fonksiyon çağırma, oturum yönetimi (uzun süreli konuşmaları yönetmek için) ve geçici belirteçler gibi özellikleri keşfedin.
Gemini Live API örnekleri: Modelle bugün oluşturabileceğiniz ses deneyimleri türleri için ilham alın.
Gemini Live API Becerisi: Kodlama aracılarının Live API'yi öğrenmesi ve onunla oluşturması için.

Google GenAI SDK ile başlayın:

python

1import asyncio
2from google import genai
3
4client = genai.Client(api_key="YOUR_API_KEY")
5
6model = "gemini-3.1-flash-live-preview"
7config = {"response_modalities": ["AUDIO"]}
8
9async def main():
10    async with client.aio.live.connect(model=model, config=config) as session:
11        print("Session started")
12        # Send content...
13
14if __name__ == "__main__":
15    asyncio.run(main())

Gemini 3.1 Flash Live ile gerçek zamanlı konuşma aracıları oluşturun

Gelişmiş gecikme süresi, güvenilirlik ve kaliteyi deneyimleyin