升級版 Gemini 音訊模型,打造強大的語音互動體驗

@GoogleAIStudio
英語7 個月前 · 2025年12月12日
345K
1.5K
184
33
575

TL;DR

Google 已更新 Gemini 2.5 Flash Native Audio,強化了處理複雜工作流程與自然對話的能力,並新增支援超過 70 種語言的即時語音對語音翻譯功能。

今天,我們推出了更新版的 Gemini 2.5 Flash Native Audio,專為即時語音 Agent 打造。這項更新強化了模型處理複雜工作流程、理解使用者指令以及進行自然對話的能力。

Gemini 2.5 Flash Native Audio 現已可在 Google 各項產品中使用,包括 Google AI StudioVertex AI,並已開始在 Gemini LiveSearch Live 中逐步推出,首次將原生音訊的自然感帶入 Search Live。這表示你可以更有效地與 Gemini 即時腦力激盪、在 Search Live 中獲得即時協助,或打造下一代企業級客服 Agent。

除了驅動實用的 Agent 之外,原生音訊也為全球溝通開啟了新的可能性。我們推出了即時語音翻譯功能,可實現串流式的語音對語音翻譯,適用於耳機。它能保留說話者的語調、節奏和音高。這項 Beta 體驗從今天開始在 Google 翻譯應用程式 中逐步推出。

即時語音 Agent

Google AI Studio - inline image

Gemini 2.5 Flash Native Audio 現在正為廣泛的對話體驗提供支援。

為了在各種介面和產品中實現多樣化的使用情境,我們在三個關鍵領域改進了 Gemini 2.5 Native Audio:

  • 更精準的函式呼叫: 我們提升了模型在觸發外部函式時的可靠性。它現在能更準確地判斷何時應在對話中擷取即時資訊,並將這些資料無縫整合回音訊回應中,不打斷對話流。在 ComplexFuncBench Audio(一個評估多步驟函式呼叫與各種限制條件的評測基準)中,Gemini 2.5 Native Audio 以 71.5% 的得分領先。
  • 更穩健的指令遵循: 模型現在能更好地處理複雜指令,從而提高使用者對內容完整性的滿意度。開發者指令的遵循率達到 90%(高於先前的 84%),提供更可靠的輸出。
  • 更流暢的對話: 我們在多輪對話品質上取得了顯著進展。Gemini 2.5 Flash Native Audio 能更有效地從先前輪次中擷取上下文,創造更連貫的對話。

客戶怎麼說

Google AI Studio - inline image

更新版 Gemini 2.5 Flash Native Audio 在 ComplexFuncBench 上與先前版本及業界競爭對手的表現比較

Google Cloud 客戶 已經在使用 Gemini 的原生音訊功能來推動實際業務成果,從抵押貸款處理到客戶通話。

「使用者在使用 Sidekick 後,往往在一分鐘內就忘記自己是在跟 AI 對話,有些人在長時間聊天後甚至會向機器人道謝……Gemini [2.5 Flash Native Audio] 透過新的 Live API AI 功能,讓我們的商家能夠脫穎而出。」



David Wurtz,Shopify 產品副總裁

「透過整合 Gemini 2.5 Flash Native Audio 模型……自 2025 年 5 月推出以來,我們大幅提升了 Mia 的能力。這種強大的組合讓我們能夠為經紀合作夥伴產生超過 14,000 筆貸款。」



"



Jason Bressler,United Wholesale Mortgage (UWM) 技術長

「透過 Vertex AI 使用 Gemini 2.5 Flash Native Audio 模型,讓


Newo.ai

AI 接待員能夠實現無與倫比的對話智慧……即使在嘈雜的環境中也能辨識主要說話者、在對話中切換語言,而且聽起來非常自然且富有情感表達。」



David Yang,共同創辦人,


Newo.ai

即時語音翻譯

Gemini 現在原生支援全新的即時語音對語音翻譯功能,專為處理持續聆聽和雙向對話而設計。

在持續聆聽模式下,Gemini 會自動將多種語言的語音翻譯成單一目標語言。這讓你可以戴上耳機,用你的語言聆聽周遭的世界。

在雙向對話模式下,Gemini 的即時語音翻譯能即時處理兩種語言之間的翻譯,並根據說話者自動切換輸出語言。例如,如果你說英語,想跟說印地語的人聊天,你會在耳機中即時聽到英語翻譯,而當你說完話時,你的手機會播放印地語。

Gemini 的即時語音翻譯具備多項關鍵能力,有助於實際應用:

  • 語言覆蓋範圍: 結合 Gemini 模型的世界知識、多語言能力以及原生音訊功能,可翻譯超過 70 種語言和 2000 種語言組合的語音。
  • 風格轉換: 捕捉人類語音的細微差別,保留說話者的語調、節奏和音高,使翻譯聽起來自然。
  • 多語言輸入: 在單一會話中同時理解多種語言,幫助你跟上多語言對話,無需費心調整語言設定。
  • 自動偵測: 辨識口語語言並開始翻譯,即使你不知道正在說的是什麼語言,也能開始翻譯。
  • 抗噪能力: 過濾環境噪音,讓你在吵雜的戶外環境中也能舒適交談。
Google AI Studio - inline image

2:49

從今天開始,你可以在 Google 翻譯應用程式的新 Beta 體驗中試用此功能,將耳機連接到裝置並點選「即時翻譯」,即可在耳機中獲得即時翻譯。此體驗將逐步在美國、墨西哥和印度的所有 Android 裝置上推出,並將於近期支援 iOS 和更多地區。

根據回饋,我們將持續迭代此體驗,並在 2026 年將其帶入更多 Google 產品,例如 Gemini API。

立即開始

立即使用 Gemini 2.5 Flash Native Audio 開始打造語音 Agent,該模型現已在 Vertex AI 上正式推出,並在 Gemini API 中提供預覽。閱讀我們的開發者文件,或直接在 Google AI Studio 中試用。

Gemini 2.5 Flash 和 2.5 Pro 文字轉語音模型也可透過 Google AI Studio 中的 Gemini API 使用。請參閱語音生成文件開始使用,探索提示指南,或查看 Gemini API Cookbook 以開始使用。

存到 YouMind

使用 YouMind 深度閱讀爆款文章

保存原文、追問細節、總結觀點,並在一個 AI 工作空間裡把爆款文章沉澱成可複用筆記。

了解 YouMind

更多可拆解樣本

近期爆款文章

探索更多爆款文章