今天,我們透過 Google AI Studio 中的 Gemini Live API,正式推出 Gemini 3.1 Flash Live 模型。Gemini 3.1 Flash Live 可幫助開發者打造即時語音與視覺 Agent,不僅能理解周遭環境,更能以對話般的速度回應。
這在延遲、可靠性與更自然的對話方面實現了躍進,為下一代的語音優先 AI 提供所需品質。
體驗更低的延遲、更高的可靠性與品質
在即時互動中,每一毫秒的延遲都會破壞使用者期待的對話流暢度。新模型更擅長理解語調、重點與意圖,讓 Agent 在關鍵環節獲得提升:
- 在吵雜的真實環境中提升任務完成率: 我們大幅改善了模型在即時對話中觸發外部工具並提供資訊的能力。透過更精準地從交通噪音或電視等環境聲中辨別相關語音,模型能更有效地濾除背景噪音,維持可靠度並確實遵循指令。
- 更好的指令遵循能力: 模型遵循複雜系統指令的能力顯著提升。即使對話出現意料之外的轉折,你的 Agent 依然能保持在設定的操作界線內。
- 更自然且低延遲的對話: 最新模型改善了延遲,且與 2.5 Flash Native Audio 相比,更能有效辨識語調、音高與節奏等聲學細節,讓即時對話變得更加流暢自然。
- 多語言能力: 模型支援超過 90 種語言的即時多模態對話。
看看 Gemini Live API 的實際應用
開發者正在積極利用 Gemini Flash Live 模型打造能以自然流暢節奏溝通並可靠執行動作的語音 Agent。以下是一些實際應用範例,這些應用已使用該模型來驅動其對話互動:
Stitch
透過 Gemini Live API,Stitch 現在讓使用者能用語音進行氛圍設計。這個 Agent 可以「看見」畫布與選定的畫面,並提供設計評論、建立變體等功能。
Hey Ato
在這個示範中,專為長者設計的 AI 陪伴裝置 Ato,運用 Gemini 3.1 Flash Live 的多語言能力,將日常對話轉化為與使用者之間的真實連結。
Wits End
看看 Weekend 團隊如何整合 Gemini 3.1 Flash Live 的強烈角色塑造與擬人化表達,為他們的 RPG 作品《Wit’s End》中的 Game Master 注入獨特的戲劇風格。
0:52
利用不斷擴展的生態系統整合進行開發
Live API 專為生產環境打造,但真實世界的系統需要處理多樣化的輸入,從即時影片串流到隨選電話通話皆是如此。
對於需要 WebRTC 擴展或全球邊緣路由的系統,我們建議探索我們的合作夥伴整合方案,以簡化即時語音與視訊 Agent 的開發流程。

開始使用 Live API
Gemini 3.1 Flash Live 即日起可透過 Gemini API 及 Google AI Studio 使用。開發者可以透過 Gemini Live API 將模型整合進應用程式。
查看這部
來用 Gemini 3 建立語音 Agent:
探索我們的開發者文件,了解如何打造即時 Agent。
- Gemini Live API 文件:探索多語言支援、工具使用與函式呼叫、對話管理(用於管理長時間對話)以及臨時權杖等功能。
- Gemini Live API 範例:從中獲取靈感,了解你今天就能用這個模型打造出哪些語音體驗。
- Gemini Live API 技能:讓程式碼 Agent 學習並使用 Live API 進行開發。
從 Google GenAI SDK 開始:
1import asyncio2from google import genai34client = genai.Client(api_key="YOUR_API_KEY")56model = "gemini-3.1-flash-live-preview"7config = {"response_modalities": ["AUDIO"]}89async def main():10 async with client.aio.live.connect(model=model, config=config) as session:11 print("Session started")12 # Send content...1314if __name__ == "__main__":15 asyncio.run(main())








