今天,我们发布了更新版的 Gemini 2.5 Flash Native Audio,专为实时语音 Agent 打造。此次更新提升了模型处理复杂工作流、理解用户指令以及进行自然对话的能力。
Gemini 2.5 Flash Native Audio 现已登陆 Google 多款产品,包括 Google AI Studio、Vertex AI,并已开始在 Gemini Live 和 Search Live 中推出,首次为 Search Live 带来了原生音频的自然体验。这意味着你可以更高效地与 Gemini 实时头脑风暴,在 Search Live 中获得实时帮助,或构建下一代企业级客服 Agent。
除了赋能实用的 Agent,原生音频还为全球沟通打开了新的可能。我们推出了实时语音翻译功能,可实现流式语音到语音的耳机端翻译。它能保留说话者的语调、语速和音高。这项 Beta 体验从今天起在 Google Translate 应用 中逐步上线。
实时语音 Agent
Gemini 2.5 Flash Native Audio 正在赋能一系列广泛的对话体验。
为了支持跨平台和产品的多样化用例,我们在三个关键领域改进了 Gemini 2.5 Native Audio:
- 更精准的函数调用: 我们提升了模型在触发外部函数时的可靠性。现在它能更准确地判断何时在对话中获取实时信息,并将这些数据无缝融入音频回复,不打断对话流畅性。在 ComplexFuncBench Audio(一个评估多步骤函数调用及多种约束的基准测试)中,Gemini 2.5 Native Audio 以 71.5% 的得分领先。
- 更强的指令遵循能力: 模型现在能更好地处理复杂指令,从而在内容完整性上带来更高的用户满意度。开发者指令的遵循率达到了 90%(此前为 84%),输出更加可靠。
- 更流畅的对话: 我们在多轮对话质量上取得了显著提升。Gemini 2.5 Flash Native Audio 能更有效地从先前轮次中提取上下文,从而构建更连贯的对话。
客户评价

更新版 Gemini 2.5 Flash Native Audio 在 ComplexFuncBench 上相较于先前版本及行业竞品的表现
Google Cloud 客户 已经在使用 Gemini 的原生音频能力来驱动真实的业务成果,从抵押贷款处理到客户通话,不一而足。
“用户在使用 Sidekick 一分钟后,常常会忘记自己是在和 AI 对话,有些用户甚至在长时间聊天后向机器人道谢……通过 Gemini [2.5 Flash Native Audio] 提供的新 Live API AI 能力,让我们的商家能够赢得更多。”
David Wurtz,Shopify 产品副总裁
“通过集成 Gemini 2.5 Flash Native Audio 模型……自 2025 年 5 月上线以来,我们显著增强了 Mia 的能力。这一强大的组合使我们能够为经纪合作伙伴发放超过 14,000 笔贷款。”
"
Jason Bressler,United Wholesale Mortgage (UWM) 首席技术官
“通过 Vertex AI 使用 Gemini 2.5 Flash Native Audio 模型,让
AI 前台接待员实现了无与伦比的对话智能……即使在嘈杂环境中也能识别主要说话者,能在对话中切换语言,并且听起来非常自然且富有情感表达。”
David Yang,联合创始人,
实时语音翻译
Gemini 现在原生支持全新的实时语音到语音翻译能力,专为持续聆听和双向对话场景设计。
在持续聆听模式下,Gemini 会自动将多种语言的语音翻译成单一目标语言。这样你就可以戴上耳机,用你的语言听到周围的世界。
在双向对话模式下,Gemini 的实时语音翻译能实时处理两种语言之间的翻译,并根据说话者自动切换输出语言。例如,如果你说英语,想和一位说印地语的人聊天,你会在耳机中实时听到英语翻译,而当你说完时,你的手机则会播放印地语。
Gemini 的实时语音翻译具备多项关键能力,可在现实世界中发挥作用:
- 语言覆盖: 结合 Gemini 模型的世界知识和多语言能力与原生音频能力,可翻译超过 70 种语言和 2000 个语言对。
- 风格迁移: 捕捉人类语音的细微差别,保留说话者的语调、语速和音高,使翻译听起来自然。
- 多语言输入: 在单次会话中同时理解多种语言,帮助你跟上多语言对话,无需反复调整语言设置。
- 自动检测: 识别所讲语言并开始翻译,你甚至无需知道对方在说什么语言即可开始翻译。
- 抗噪能力: 过滤环境噪音,让你即使在嘈杂的户外环境中也能舒适交谈。
2:49
从今天起,你可以在 Google Translate 应用的全新 Beta 体验中尝试 耳机实时翻译 功能——将耳机连接到设备,然后点击“实时翻译”即可。该体验将逐步向美国、墨西哥和印度的所有 Android 设备推出,iOS 及更多地区的支持即将到来。
根据反馈,我们将持续迭代这一体验,并于 2026 年将其推广到更多 Google 产品,如 Gemini API。
立即开始
立即使用 Gemini 2.5 Flash Native Audio 构建语音 Agent,该模型现已正式在 Vertex AI 上提供,并在 Gemini API 中以预览版形式提供。阅读我们的 开发者文档,或直接在 Google AI Studio 中尝试。
Gemini 2.5 Flash 和 2.5 Pro 文本转语音模型也已通过 Google AI Studio 中的 Gemini API 提供。从 语音生成文档 开始,探索 提示指南,或查看 Gemini API Cookbook 以快速上手。







