使用 Gemini 3.1 Flash Live 构建实时对话式 Agent

@GoogleAIStudio
英语3个月前 · 2026年3月26日
2.7M
2.4K
341
72
4.8K

TL;DR

Google 发布了 Gemini 3.1 Flash Live,这是一款用于实时语音和视觉交互的低延迟模型,具备更强的指令遵循能力,并支持超过 90 种语言。

今天,我们通过 Google AI Studio 中的 Gemini Live API 正式推出 Gemini 3.1 Flash Live 。Gemini 3.1 Flash Live 帮助开发者构建实时语音与视觉 Agents,不仅能处理周围的世界,还能以对话的速度做出响应。

这是延迟、可靠性和更自然对话方面的一次质变,为下一代的语音优先 AI 提供了所需的高质量体验。

更低的延迟、更高的可靠性与质量

在实时交互中,每一毫秒的延迟都会破坏用户期望的自然对话流畅度。新模型能更好地理解语气、重点和意图,为 Agents 带来以下关键改进:

  • 在嘈杂的真实环境中实现更高的任务完成率: 我们显著提升了模型在实时对话中触发外部工具和传递信息的能力。通过更好地区分相关语音与交通或电视等环境噪音,模型能更有效地过滤背景噪音,保持稳定可靠并响应指令。
  • 更好的指令遵循能力: 对复杂系统指令的遵循能力得到显著提升。即使对话出现意外转折,你的 Agent 也能保持在操作防护栏内。
  • 更自然、低延迟的对话: 相比 2.5 Flash Native Audio,最新模型进一步优化了延迟,在识别音调、语速等声学细节方面更加高效,使实时对话感觉更加流畅自然。
  • 多语言能力: 该模型支持超过 90 种语言的实时多模态对话。

看看 Gemini Live API 的实际表现

开发者正在积极构建语音 Agents,它们能以自然的语流和节奏进行交流,并借助 Gemini Flash Live 模型可靠地执行操作。以下是一些现实应用案例,展示了模型如何驱动对话交互:

Stitch

通过 Gemini Live API,Stitch 现可让用户通过语音进行"氛围设计"。该 Agent 能够"看到"画布和选中的屏幕,并提供设计点评、生成变体等功能。

Google AI Studio - inline image

Hey Ato

在这个演示中,面向老年人的 AI 伴侣设备 Ato 利用 Gemini 3.1 Flash Live 的多语言能力,将日常对话转化为与用户的真实连接。

Google AI Studio - inline image

Wits End

看看 Weekend 团队如何将 Gemini 3.1 Flash Live 强大的角色塑造能力和类人表达融入其 RPG 游戏 Wit’s end,为游戏主持人增添独特的戏剧风格。

Google AI Studio - inline image

0:52

利用不断扩展的集成生态进行构建

Live API 专为生产环境设计,但真实系统需要处理多种输入,从实时视频流到按需电话呼叫。

对于需要 WebRTC 扩展或全局边缘路由的系统,我们建议探索我们的合作伙伴集成方案,以简化实时语音和视频 Agents 的开发。

Google AI Studio - inline image

开始使用 Live API

Gemini 3.1 Flash Live 即日起通过 Gemini API 和 Google AI Studio 提供。开发者可以使用 Gemini Live API 将模型集成到自己的应用中。

查看这个


视频教程

来构建带有 Gemini 3 的语音 Agents:

查阅我们的开发者文档,了解如何构建实时 Agents。

  • Gemini Live API 文档:探索多语言支持、工具使用与函数调用、会话管理(用于管理长时间运行的对话)以及临时令牌等功能。
  • Gemini Live API 示例:获取灵感,了解今天即可使用该模型构建的语音体验。 -体验类型。
  • Gemini Live API 技能:供编码 Agents 学习和使用 Live API。

开始使用 Google GenAI SDK

python
1import asyncio
2from google import genai
3
4client = genai.Client(api_key="YOUR_API_KEY")
5
6model = "gemini-3.1-flash-live-preview"
7config = {"response_modalities": ["AUDIO"]}
8
9async def main():
10 async with client.aio.live.connect(model=model, config=config) as session:
11 print("Session started")
12 # Send content...
13
14if __name__ == "__main__":
15 asyncio.run(main())
存到 YouMind

使用 YouMind 深度阅读爆款文章

保存原文、追问细节、总结观点,并在一个 AI 工作空间里把爆款文章沉淀成可复用笔记。

了解 YouMind
写给创作者

把你的 Markdown 变成干净的 𝕏 文章

图片上传、表格、代码块,往 𝕏 上手动重排太痛苦。YouMind 把整篇 Markdown 一键转成干净、可直接发布的 𝕏 文章草稿。

试试 Markdown 转 𝕏

更多可拆解样本

近期爆款文章

探索更多爆款文章