Güçlü sesli etkileşimler için geliştirilmiş Gemini ses modelleri

@GoogleAIStudio
İNGILIZCE7 ay önce · 12 Ara 2025
345K
1.5K
184
33
575

TL;DR

Google, Gemini 2.5 Flash Native Audio'yu güncelleyerek karmaşık iş akışlarını ve doğal diyalogları yönetme becerisini geliştirdi; ayrıca 70'ten fazla dil için canlı konuşmadan konuşmaya çeviri özelliğini kullanıma sundu.

Bugün, canlı sesli ajanlar için güncellenmiş bir Gemini 2.5 Flash Native Audio sürümünü yayınlıyoruz. Bu güncelleme, modelin karmaşık iş akışlarını yönetme, kullanıcı talimatlarını takip etme ve doğal konuşmalar yapma becerisini geliştiriyor.

Gemini 2.5 Flash Native Audio artık Google AI Studio, Vertex AI dahil olmak üzere Google ürünlerinde kullanılabilir ve ayrıca Gemini Live ile Search Live'da kullanıma sunulmaya başlandı. Bu sayede, yerel sesin doğallığı ilk kez Search Live'a taşınıyor. Bu, Gemini ile canlı olarak daha etkili bir şekilde beyin fırtınası yapabileceğiniz, Search Live'da gerçek zamanlı yardım alabileceğiniz veya kurumsal kullanıma hazır yeni nesil müşteri hizmetleri ajanları oluşturabileceğiniz anlamına geliyor.

Yerel ses, güçlü ajanlara güç vermenin ötesinde, küresel iletişim için yeni olanaklar sunuyor. Kulaklıklar için akışlı konuşmadan konuşmaya çeviriyi mümkün kılan bir özellik olan canlı konuşma çevirisini tanıtıyoruz. Bu özellik, konuşmacının tonlamasını, hızını ve perdesini koruyor. Bu beta deneyimi, bugünden itibaren Google Translate uygulamasında kullanıma sunuluyor.

Canlı Sesli Ajanlar

Google AI Studio - inline image

Gemini 2.5 Flash Native Audio artık çok çeşitli konuşma deneyimlerini mümkün kılıyor.

Yüzeyler ve ürünler arasında geniş bir kullanım alanı yelpazesini etkinleştirmek için Gemini 2.5 Native Audio'yu üç temel alanda iyileştirdik:

  • Daha keskin fonksiyon çağırma: Modelin harici fonksiyonları tetiklerkenki güvenilirliğini artırdık. Artık bir konuşma sırasında gerçek zamanlı bilgilerin ne zaman getirileceğini daha doğru bir şekilde belirleyebiliyor ve bu verileri akışı kesintiye uğratmadan sorunsuz bir şekilde ses yanıtına geri ekleyebiliyor. Çeşitli kısıtlamalarla çok adımlı fonksiyon çağırmayı yakalayan bir değerlendirme olan ComplexFuncBench Audio üzerinde Gemini 2.5 Native Audio, %71,5'lik bir skorla lider durumda.
  • Sağlam talimat takibi: Model artık karmaşık talimatları daha iyi işleyerek içerik bütünlüğü konusunda daha yüksek kullanıcı memnuniyeti sağlıyor. Geliştirici talimatlarına %90 uyum oranıyla (önceki %84'ten) daha güvenilir çıktılar sunuyor.
  • Daha akıcı konuşmalar: Çok turlu konuşma kalitesinde önemli kazanımlar elde ettik. Gemini 2.5 Flash Native Audio, önceki turlardan bağlamı daha etkili bir şekilde alarak daha tutarlı konuşmalar oluşturabiliyor.

Müşteriler Ne Diyor?

Google AI Studio - inline image

Güncellenmiş Gemini 2.5 Flash Native Audio'nun ComplexFuncBench üzerinde önceki sürümlere ve sektör rakiplerine karşı performansı

Google Cloud müşterileri, ipotek işlemlerinden müşteri görüşmelerine kadar gerçek iş sonuçları elde etmek için Gemini'nin yerel ses yeteneklerini şimdiden kullanıyor.

"Kullanıcılar, Sidekick'i kullanmaya başladıktan sonraki bir dakika içinde bir AI ile konuştuklarını genellikle unutuyor ve hatta bazı durumlarda uzun bir sohbetin ardından bot'a teşekkür ediyorlar... Gemini [2.5 Flash Native Audio] aracılığıyla sunulan yeni Canlı API AI yetenekleri, satıcılarımızın başarılı olmasını sağlıyor."



David Wurtz, Ürün Müdürü, Shopify

"Gemini 2.5 Flash Native Audio modelini entegre ederek... Mayıs 2025'te piyasaya sürülmesinden bu yana Mia'nın yeteneklerini önemli ölçüde geliştirdik. Bu güçlü kombinasyon, komisyoncu ortaklarımız için 14.000'den fazla kredi oluşturmamızı sağladı.



"



Jason Bressler, Teknoloji Direktörü, United Wholesale Mortgage (UWM)

"Vertex AI aracılığıyla Gemini 2.5 Flash Native Audio modeliyle çalışmak,


Newo.ai

AI Resepsiyonistlerinin benzersiz bir konuşma zekası elde etmesini sağlıyor... Gürültülü ortamlarda bile ana konuşmacıyı tanıyabiliyor, konuşma sırasında dil değiştirebiliyor ve son derece doğal ve duygusal olarak etkileyici ses çıkarabiliyorlar."



David Yang, Kurucu Ortak,


Newo.ai

Canlı Konuşma Çevirisi

Gemini artık hem sürekli dinleme hem de iki yönlü konuşma için tasarlanmış yeni canlı konuşmadan konuşmaya çeviri yeteneklerini yerel olarak destekliyor.

Sürekli dinleme ile Gemini, birden fazla dildeki konuşmaları otomatik olarak tek bir hedef dile çeviriyor. Bu, kulaklıklarınızı takıp etrafınızdaki dünyayı kendi dilinizde duymanızı sağlıyor.

İki yönlü konuşma için Gemini'nin canlı konuşma çevirisi, iki dil arasında gerçek zamanlı çeviri yaparak, kimin konuştuğuna bağlı olarak çıktı dilini otomatik olarak değiştiriyor. Örneğin, İngilizce konuşuyor ve Hintçe konuşan biriyle sohbet etmek istiyorsanız, kulaklığınızda gerçek zamanlı olarak İngilizce çeviriler duyarken, siz konuşmayı bitirdiğinizde telefonunuz Hintçe yayın yapacak.

Gemini'nin canlı konuşma çevirisi, gerçek dünyada yardımcı olan bir dizi önemli yeteneğe sahiptir:

  • Dil desteği: Gemini modelinin dünya bilgisi ve çok dilli yeteneklerini yerel ses yetenekleriyle birleştirerek 70'ten fazla dilde ve 2000 dil çiftinde konuşmayı çevirir.
  • Stil aktarımı: İnsan konuşmasının nüanslarını yakalayarak konuşmacının tonlamasını, hızını ve perdesini korur, böylece çeviri doğal gelir.
  • Çok dilli girdi: Tek bir oturumda birden fazla dili aynı anda anlayarak, dil ayarlarıyla uğraşmanıza gerek kalmadan çok dilli konuşmaları takip etmenize yardımcı olur.
  • Otomatik algılama: Konuşulan dili tanımlar ve çeviriye başlar, böylece çeviriye başlamak için hangi dilin konuşulduğunu bilmenize bile gerek kalmaz.
  • Gürültü dayanıklılığı: Ortam gürültüsünü filtreleyerek gürültülü, açık hava ortamlarında bile rahatça konuşmanızı sağlar.
Google AI Studio - inline image

2:49

Bugünden itibaren, Google Translate uygulamasındaki yeni bir beta deneyiminde, kulaklıklarınızı cihazınıza bağlayıp "Canlı çeviri"ye dokunarak kulaklıklarınızda gerçek zamanlı çeviriyi deneyebilirsiniz. Bu deneyim, ABD, Meksika ve Hindistan'daki tüm Android cihazlara sunuluyor; iOS desteği ve daha fazla bölge yakında gelecek.

Geri bildirimlere dayanarak bu deneyim üzerinde yinelemeye devam edecek ve 2026'da Gemini API gibi daha fazla Google ürününe getireceğiz.

Bugün Başlayın

Artık Vertex AI'da genel kullanıma sunulan ve Gemini API'de önizleme olarak sunulan Gemini 2.5 Flash Native Audio ile bugün sesli ajanlar oluşturmaya başlayın. Geliştirici dokümanlarımızı okuyun veya doğrudan Google AI Studio'da deneyin.

Gemini 2.5 Flash ve 2.5 Pro metin-konuşma modelleri de Google AI Studio'daki Gemini API aracılığıyla kullanılabilir. Konuşma oluşturma dokümanları ile başlayın, yönlendirme kılavuzunu keşfedin veya başlamak için Gemini API Cookbook sayfasına göz atın.

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind

Çözülecek daha fazla kalıp

Son viral makaleler

Daha fazla viral makale keşfet