Modelos de áudio Gemini aprimorados para interações de voz poderosas

Hoje, estamos lançando uma versão atualizada do Gemini 2.5 Flash Native Audio para agentes de voz ao vivo. Esta atualização melhora a capacidade do modelo de lidar com fluxos de trabalho complexos, navegar pelas instruções do usuário e manter conversas naturais.

O Gemini 2.5 Flash Native Audio já está disponível em vários produtos do Google, incluindo o Google AI Studio, o Vertex AI, e também começou a ser implementado no Gemini Live e no Search Live, trazendo pela primeira vez a naturalidade do áudio nativo para o Search Live. Isso significa que você pode fazer brainstorming de forma mais eficaz ao vivo com o Gemini, obter ajuda em tempo real no Search Live ou criar a próxima geração de agentes de atendimento ao cliente prontos para empresas.

Além de capacitar agentes úteis, o áudio nativo desbloqueia novas possibilidades para a comunicação global. Estamos apresentando a tradução de fala ao vivo, um recurso que permite a tradução de fala para fala em streaming para fones de ouvido. Ela preserva a entonação, o ritmo e o tom de voz do falante. Esta experiência beta está sendo lançada no aplicativo Google Tradutor a partir de hoje.

Agentes de Voz ao Vivo

O Gemini 2.5 Flash Native Audio agora está possibilitando um amplo espectro de experiências conversacionais.

Para viabilizar a amplitude de casos de uso em diferentes superfícies e produtos, melhoramos o Gemini 2.5 Native Audio em três áreas principais:

Chamada de funções mais precisa: Melhoramos a confiabilidade do modelo ao acionar funções externas. Agora ele consegue identificar com mais precisão quando buscar informações em tempo real durante uma conversa e integrar esses dados perfeitamente na resposta de áudio, sem interromper o fluxo. No ComplexFuncBench Audio, uma avaliação que captura chamadas de funções de várias etapas com diversas restrições, o Gemini 2.5 Native Audio lidera com uma pontuação de 71,5%.
Seguimento robusto de instruções: O modelo agora lida melhor com instruções complexas, resultando em maior satisfação do usuário quanto à completude do conteúdo. Com uma taxa de adesão de 90% às instruções do desenvolvedor (acima dos 84%), ele oferece resultados mais confiáveis.
Conversas mais fluidas: Alcançamos ganhos significativos na qualidade de conversas com múltiplas etapas. O Gemini 2.5 Flash Native Audio consegue recuperar o contexto de turnos anteriores de forma mais eficaz, criando conversas mais coesas.

O que os clientes estão dizendo

Desempenho do Gemini 2.5 Flash Native Audio atualizado em comparação com versões anteriores e concorrentes do setor no ComplexFuncBench

Clientes do Google Cloud já estão usando os recursos de áudio nativo do Gemini para gerar resultados reais de negócios, desde processamento de hipotecas até chamadas de clientes.

"Os usuários frequentemente esquecem que estão falando com uma IA em menos de um minuto usando o Sidekick e, em alguns casos, agradeceram ao bot após uma longa conversa... As novas capacidades da Live API AI oferecidas através do Gemini [2.5 Flash Native Audio] capacitam nossos comerciantes a vencer."

David Wurtz, VP de Produto, Shopify

"Ao integrar o modelo Gemini 2.5 Flash Native Audio... aprimoramos significativamente as capacidades da Mia desde o lançamento em maio de 2025. Essa combinação poderosa nos permitiu gerar mais de 14.000 empréstimos para nossos parceiros corretores.

"

Jason Bressler, Diretor de Tecnologia, United Wholesale Mortgage (UWM)

"Trabalhar com o modelo Gemini 2.5 Flash Native Audio através do Vertex AI permite que os

Newo.ai

Recepcionistas de IA atinjam uma inteligência conversacional incomparável... Eles conseguem identificar o falante principal mesmo em ambientes ruidosos, alternar idiomas no meio da conversa e soar notavelmente naturais e emocionalmente expressivos.”

David Yang, Cofundador,

Newo.ai

Tradução de Fala ao Vivo

O Gemini agora oferece suporte nativo a novos recursos de tradução de fala para fala ao vivo, projetados para lidar tanto com escuta contínua quanto com conversa bidirecional.

Com a escuta contínua, o Gemini traduz automaticamente a fala em vários idiomas para um único idioma de destino. Isso permite que você coloque fones de ouvido e ouça o mundo ao seu redor no seu idioma.

Para conversa bidirecional, a tradução de fala ao vivo do Gemini lida com a tradução entre dois idiomas em tempo real, alternando automaticamente o idioma de saída com base em quem está falando. Por exemplo, se você fala inglês e quer conversar com um falante de hindi, ouvirá traduções em inglês em tempo real em seus fones de ouvido, enquanto seu telefone transmite em hindi quando você terminar de falar.

A tradução de fala ao vivo do Gemini tem vários recursos importantes que ajudam no mundo real:

Cobertura de idiomas: Traduz fala em mais de 70 idiomas e 2000 pares de idiomas, combinando o conhecimento de mundo e as capacidades multilíngues do modelo Gemini com seus recursos de áudio nativo.
Transferência de estilo: Captura as nuances da fala humana, preservando a entonação, o ritmo e o tom de voz do falante para que a tradução soe natural.
Entrada multilíngue: Entende vários idiomas simultaneamente em uma única sessão, ajudando você a acompanhar conversas multilíngues sem precisar ajustar as configurações de idioma.
Detecção automática: Identifica o idioma falado e inicia a tradução, para que você nem precise saber qual idioma está sendo falado para começar a traduzir.
Robustez contra ruído: Filtra o ruído ambiente para que você possa conversar confortavelmente mesmo em ambientes externos barulhentos.

2:49

A partir de hoje, você pode experimentá-lo em uma nova experiência beta no aplicativo Google Tradutor para tradução em tempo real em seus fones de ouvido conectando-os ao seu dispositivo e tocando em "Tradução ao vivo". Esta experiência está sendo lançada para todos os dispositivos Android nos EUA, México e Índia, com suporte para iOS e mais regiões em breve.

Com base no feedback, continuaremos a iterar nesta experiência e trazê-la para mais produtos do Google, como a API Gemini, em 2026.

Comece hoje mesmo

Comece a construir agentes de voz hoje mesmo com o Gemini 2.5 Flash Native Audio, agora geralmente disponível no Vertex AI e em preview na API Gemini. Leia nossa documentação para desenvolvedores ou experimente diretamente no Google AI Studio.

Os modelos de texto para fala Gemini 2.5 Flash e 2.5 Pro também estão disponíveis através da API Gemini no Google AI Studio. Comece com a documentação de geração de fala, explore o guia de prompts ou confira o Gemini API Cookbook para começar.

Agentes de Voz ao Vivo

O que os clientes estão dizendo

Tradução de Fala ao Vivo

Comece hoje mesmo

Use YouMind to read viral articles deeply

Artigos virais recentes

Como executar anúncios pagos pelo Claude Code: O guia definitivo

Júpiter entra em Leão em 30 de junho de 2026: Como aproveitar sua boa sorte

A maneira mais deliciosa do mundo de comer tomates

Uma pessoa é uma empresa de classe mundial: O manifesto da Economia Agêntica

Como construir uma empresa de uma pessoa só usando IA?

Fazer scroll é status baixo