使用 Gemini 3.1 Flash Live 構建即時對話式 Agent

@GoogleAIStudio
英語3 個月前 · 2026年3月26日
2.7M
2.4K
341
72
4.8K

TL;DR

Google 推出 Gemini 3.1 Flash Live,這是一款專為即時語音與視覺互動設計的低延遲模型,具備更強的指令遵循能力,並支援超過 90 種語言。

今天,我們透過 Google AI Studio 中的 Gemini Live API,正式推出 Gemini 3.1 Flash Live 模型。Gemini 3.1 Flash Live 可幫助開發者打造即時語音與視覺 Agent,不僅能理解周遭環境,更能以對話般的速度回應。

這在延遲、可靠性與更自然的對話方面實現了躍進,為下一代的語音優先 AI 提供所需品質。

體驗更低的延遲、更高的可靠性與品質

在即時互動中,每一毫秒的延遲都會破壞使用者期待的對話流暢度。新模型更擅長理解語調、重點與意圖,讓 Agent 在關鍵環節獲得提升:

  • 在吵雜的真實環境中提升任務完成率: 我們大幅改善了模型在即時對話中觸發外部工具並提供資訊的能力。透過更精準地從交通噪音或電視等環境聲中辨別相關語音,模型能更有效地濾除背景噪音,維持可靠度並確實遵循指令。
  • 更好的指令遵循能力: 模型遵循複雜系統指令的能力顯著提升。即使對話出現意料之外的轉折,你的 Agent 依然能保持在設定的操作界線內。
  • 更自然且低延遲的對話: 最新模型改善了延遲,且與 2.5 Flash Native Audio 相比,更能有效辨識語調、音高與節奏等聲學細節,讓即時對話變得更加流暢自然。
  • 多語言能力: 模型支援超過 90 種語言的即時多模態對話。

看看 Gemini Live API 的實際應用

開發者正在積極利用 Gemini Flash Live 模型打造能以自然流暢節奏溝通並可靠執行動作的語音 Agent。以下是一些實際應用範例,這些應用已使用該模型來驅動其對話互動:

Stitch

透過 Gemini Live API,Stitch 現在讓使用者能用語音進行氛圍設計。這個 Agent 可以「看見」畫布與選定的畫面,並提供設計評論、建立變體等功能。

Google AI Studio - inline image

Hey Ato

在這個示範中,專為長者設計的 AI 陪伴裝置 Ato,運用 Gemini 3.1 Flash Live 的多語言能力,將日常對話轉化為與使用者之間的真實連結。

Google AI Studio - inline image

Wits End

看看 Weekend 團隊如何整合 Gemini 3.1 Flash Live 的強烈角色塑造與擬人化表達,為他們的 RPG 作品《Wit’s End》中的 Game Master 注入獨特的戲劇風格。

Google AI Studio - inline image

0:52

利用不斷擴展的生態系統整合進行開發

Live API 專為生產環境打造,但真實世界的系統需要處理多樣化的輸入,從即時影片串流到隨選電話通話皆是如此。

對於需要 WebRTC 擴展或全球邊緣路由的系統,我們建議探索我們的合作夥伴整合方案,以簡化即時語音與視訊 Agent 的開發流程。

Google AI Studio - inline image

開始使用 Live API

Gemini 3.1 Flash Live 即日起可透過 Gemini API 及 Google AI Studio 使用。開發者可以透過 Gemini Live API 將模型整合進應用程式。

查看這部


影片教學

來用 Gemini 3 建立語音 Agent:

探索我們的開發者文件,了解如何打造即時 Agent。

  • Gemini Live API 文件:探索多語言支援、工具使用與函式呼叫、對話管理(用於管理長時間對話)以及臨時權杖等功能。
  • Gemini Live API 範例:從中獲取靈感,了解你今天就能用這個模型打造出哪些語音體驗。
  • Gemini Live API 技能:讓程式碼 Agent 學習並使用 Live API 進行開發。

Google GenAI SDK 開始:

python
1import asyncio
2from google import genai
3
4client = genai.Client(api_key="YOUR_API_KEY")
5
6model = "gemini-3.1-flash-live-preview"
7config = {"response_modalities": ["AUDIO"]}
8
9async def main():
10 async with client.aio.live.connect(model=model, config=config) as session:
11 print("Session started")
12 # Send content...
13
14if __name__ == "__main__":
15 asyncio.run(main())
存到 YouMind

使用 YouMind 深度閱讀爆款文章

保存原文、追問細節、總結觀點,並在一個 AI 工作空間裡把爆款文章沉澱成可複用筆記。

了解 YouMind
寫給創作者

把你的 Markdown 變成乾淨的 𝕏 文章

圖片上傳、表格、程式碼區塊,往 𝕏 上手動重排太痛苦。YouMind 把整篇 Markdown 一鍵轉成乾淨、可直接發佈的 𝕏 文章草稿。

試試 Markdown 轉 𝕏

更多可拆解樣本

近期爆款文章

探索更多爆款文章