Gemini 3.1 Flash Live ile gerçek zamanlı konuşma aracıları oluşturun

@GoogleAIStudio
İNGILIZCE3 ay önce · 26 Mar 2026
2.7M
2.4K
341
72
4.8K

TL;DR

Google, gerçek zamanlı sesli ve görsel etkileşimler için düşük gecikmeli bir model olan Gemini 3.1 Flash Live'ı kullanıma sundu; model, geliştirilmiş talimat takibi ve 90'dan fazla dil desteği sunuyor.

Bugün, Google AI Studio üzerinden Gemini Live API aracılığıyla Gemini 3.1 Flash Live'ı kullanıma sunuyoruz. Gemini 3.1 Flash Live, geliştiricilerin yalnızca çevrelerindeki dünyayı işlemekle kalmayıp aynı zamanda konuşma hızında yanıt verebilen gerçek zamanlı ses ve görüntü aracıları oluşturmasına yardımcı olur.

Bu, gecikme süresi, güvenilirlik ve daha doğal sesli diyalogda bir adım değişikliği olup, yeni nesil ses öncelikli yapay zeka için gereken kaliteyi sunar.

Gelişmiş gecikme süresi, güvenilirlik ve kaliteyi deneyimleyin

Gerçek zamanlı etkileşimlerde, her milisaniyelik gecikme, kullanıcıların beklediği doğal konuşma akışını bozar. Yeni model, tonu, vurguyu ve amacı daha iyi anlayarak aracılara önemli iyileştirmeler sağlar:

  • Gürültülü, gerçek dünya ortamlarında daha yüksek görev tamamlama oranları: Modelin, canlı konuşmalar sırasında harici araçları tetikleme ve bilgi sunma yeteneğini önemli ölçüde geliştirdik. Model, trafik veya televizyon gibi çevresel seslerden ilgili konuşmayı daha iyi ayırt ederek arka plan gürültüsünü daha etkili bir şekilde filtreler ve talimatlara karşı güvenilir ve duyarlı kalır.
  • Daha iyi talimat takibi: Karmaşık sistem talimatlarına uyum önemli ölçüde artırıldı. Aracınız, konuşmalar beklenmedik yönlere sapasa bile operasyonel sınırları içinde kalacaktır.
  • Daha doğal ve düşük gecikmeli diyalog: En son model, gecikme süresini iyileştirir ve 2.5 Flash Native Audio'ya kıyasla perde ve hız gibi akustik nüansları tanımada daha etkilidir, bu da gerçek zamanlı konuşmaları çok daha akıcı ve doğal hale getirir.
  • Çok dilli yetenekler: Model, gerçek zamanlı çok modlu konuşmalar için 90'dan fazla dili destekler.

Gemini Live API'yi çalışırken görün

Geliştiriciler, Gemini Flash Live modelleriyle doğal bir akış ve hızla iletişim kuran ve güvenilir bir şekilde eylemler gerçekleştiren ses aracıları aktif olarak oluşturuyor. İşte modeli konuşma etkileşimlerini güçlendirmek için kullanan gerçek dünya uygulamalarından birkaç örnek:

Stitch

Stitch, Gemini Live API'yi kullanarak artık kullanıcılarının sesleriyle vibe tasarımı yapmasını sağlıyor. Aracı, tuvali ve seçilen ekranları 'görebilir', tasarım eleştirileri yapabilir, varyasyonlar oluşturabilir ve daha fazlasını yapabilir.

Google AI Studio - inline image

Hey Ato

Bu demoda, yaşlı yetişkinler için yapay zeka arkadaş cihazı Ato, günlük konuşmaları kullanıcıları için gerçek bağlantılara dönüştürmek amacıyla Gemini 3.1 Flash Live'ın çok dilli yeteneklerini kullanıyor.

Google AI Studio - inline image

Wits End

Weekend ekibinin, RPG oyunları Wit's end'deki Oyun Yöneticisine benzersiz bir teatral hava katmak için Gemini 3.1 Flash Live'ın güçlü karakterizasyonunu ve insan benzeri sunumunu nasıl entegre ettiğini görün.

Google AI Studio - inline image

0:52

Genişleyen bir entegrasyon ekosistemiyle oluşturun

Live API, üretim ortamları için oluşturulmuştur, ancak gerçek dünya sistemleri, canlı video akışlarından isteğe bağlı telefon görüşmelerine kadar çeşitli girdilerin işlenmesini gerektirir.

WebRTC ölçeklendirme veya küresel uç yönlendirme gerektiren sistemler için, gerçek zamanlı ses ve video aracılarının geliştirilmesini kolaylaştırmak amacıyla ortak entegrasyonlarımızı keşfetmenizi öneririz.

Google AI Studio - inline image

Live API ile başlayın**

Gemini 3.1 Flash Live, bugünden itibaren Gemini API ve Google AI Studio üzerinden kullanılabilir. Geliştiriciler, modeli uygulamalarına entegre etmek için Gemini Live API'yi kullanabilir.

Şuraya göz atın


video eğitimi

Gemini 3 ile ses aracıları oluşturmak için:

Gerçek zamanlı aracıları nasıl oluşturabileceğinizi öğrenmek için geliştirici dokümantasyonumuzu inceleyin.

  • Gemini Live API dokümantasyonu: Çok dilli destek, araç kullanımı ve fonksiyon çağırma, oturum yönetimi (uzun süreli konuşmaları yönetmek için) ve geçici belirteçler gibi özellikleri keşfedin.
  • Gemini Live API örnekleri: Modelle bugün oluşturabileceğiniz ses deneyimleri türleri için ilham alın.
  • Gemini Live API Becerisi: Kodlama aracılarının Live API'yi öğrenmesi ve onunla oluşturması için.

Google GenAI SDK ile başlayın:

python
1import asyncio
2from google import genai
3
4client = genai.Client(api_key="YOUR_API_KEY")
5
6model = "gemini-3.1-flash-live-preview"
7config = {"response_modalities": ["AUDIO"]}
8
9async def main():
10 async with client.aio.live.connect(model=model, config=config) as session:
11 print("Session started")
12 # Send content...
13
14if __name__ == "__main__":
15 asyncio.run(main())
Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind
Üreticiler için

Markdown'ınızı temiz bir 𝕏 makalesine dönüştürün

Kendi uzun yazılarınızı yayımlarken görselleri, tabloları ve kod bloklarını 𝕏 için biçimlendirmek zahmetlidir. YouMind, eksiksiz bir Markdown taslağını temiz ve hemen paylaşılabilir bir 𝕏 makalesine dönüştürür.

Markdown'dan 𝕏'e deneyin

Çözülecek daha fazla kalıp

Son viral makaleler

Daha fazla viral makale keşfet