Modelos de áudio Gemini aprimorados para interações de voz poderosas

@GoogleAIStudio
INGLÊShá 7 meses · 12 de dez. de 2025
345K
1.5K
184
33
575

TL;DR

O Google atualizou o Gemini 2.5 Flash Native Audio, aprimorando sua capacidade de lidar com fluxos de trabalho complexos e diálogos naturais, além de introduzir tradução de fala para fala em tempo real para mais de 70 idiomas.

Hoje, estamos lançando uma versão atualizada do Gemini 2.5 Flash Native Audio para agentes de voz ao vivo. Esta atualização melhora a capacidade do modelo de lidar com fluxos de trabalho complexos, navegar pelas instruções do usuário e manter conversas naturais.

O Gemini 2.5 Flash Native Audio já está disponível em vários produtos do Google, incluindo o Google AI Studio, o Vertex AI, e também começou a ser implementado no Gemini Live e no Search Live, trazendo pela primeira vez a naturalidade do áudio nativo para o Search Live. Isso significa que você pode fazer brainstorming de forma mais eficaz ao vivo com o Gemini, obter ajuda em tempo real no Search Live ou criar a próxima geração de agentes de atendimento ao cliente prontos para empresas.

Além de capacitar agentes úteis, o áudio nativo desbloqueia novas possibilidades para a comunicação global. Estamos apresentando a tradução de fala ao vivo, um recurso que permite a tradução de fala para fala em streaming para fones de ouvido. Ela preserva a entonação, o ritmo e o tom de voz do falante. Esta experiência beta está sendo lançada no aplicativo Google Tradutor a partir de hoje.

Agentes de Voz ao Vivo

Google AI Studio - inline image

O Gemini 2.5 Flash Native Audio agora está possibilitando um amplo espectro de experiências conversacionais.

Para viabilizar a amplitude de casos de uso em diferentes superfícies e produtos, melhoramos o Gemini 2.5 Native Audio em três áreas principais:

  • Chamada de funções mais precisa: Melhoramos a confiabilidade do modelo ao acionar funções externas. Agora ele consegue identificar com mais precisão quando buscar informações em tempo real durante uma conversa e integrar esses dados perfeitamente na resposta de áudio, sem interromper o fluxo. No ComplexFuncBench Audio, uma avaliação que captura chamadas de funções de várias etapas com diversas restrições, o Gemini 2.5 Native Audio lidera com uma pontuação de 71,5%.
  • Seguimento robusto de instruções: O modelo agora lida melhor com instruções complexas, resultando em maior satisfação do usuário quanto à completude do conteúdo. Com uma taxa de adesão de 90% às instruções do desenvolvedor (acima dos 84%), ele oferece resultados mais confiáveis.
  • Conversas mais fluidas: Alcançamos ganhos significativos na qualidade de conversas com múltiplas etapas. O Gemini 2.5 Flash Native Audio consegue recuperar o contexto de turnos anteriores de forma mais eficaz, criando conversas mais coesas.

O que os clientes estão dizendo

Google AI Studio - inline image

Desempenho do Gemini 2.5 Flash Native Audio atualizado em comparação com versões anteriores e concorrentes do setor no ComplexFuncBench

Clientes do Google Cloud já estão usando os recursos de áudio nativo do Gemini para gerar resultados reais de negócios, desde processamento de hipotecas até chamadas de clientes.

"Os usuários frequentemente esquecem que estão falando com uma IA em menos de um minuto usando o Sidekick e, em alguns casos, agradeceram ao bot após uma longa conversa... As novas capacidades da Live API AI oferecidas através do Gemini [2.5 Flash Native Audio] capacitam nossos comerciantes a vencer."



David Wurtz, VP de Produto, Shopify

"Ao integrar o modelo Gemini 2.5 Flash Native Audio... aprimoramos significativamente as capacidades da Mia desde o lançamento em maio de 2025. Essa combinação poderosa nos permitiu gerar mais de 14.000 empréstimos para nossos parceiros corretores.



"



Jason Bressler, Diretor de Tecnologia, United Wholesale Mortgage (UWM)

"Trabalhar com o modelo Gemini 2.5 Flash Native Audio através do Vertex AI permite que os


Newo.ai

Recepcionistas de IA atinjam uma inteligência conversacional incomparável... Eles conseguem identificar o falante principal mesmo em ambientes ruidosos, alternar idiomas no meio da conversa e soar notavelmente naturais e emocionalmente expressivos.”



David Yang, Cofundador,


Newo.ai

Tradução de Fala ao Vivo

O Gemini agora oferece suporte nativo a novos recursos de tradução de fala para fala ao vivo, projetados para lidar tanto com escuta contínua quanto com conversa bidirecional.

Com a escuta contínua, o Gemini traduz automaticamente a fala em vários idiomas para um único idioma de destino. Isso permite que você coloque fones de ouvido e ouça o mundo ao seu redor no seu idioma.

Para conversa bidirecional, a tradução de fala ao vivo do Gemini lida com a tradução entre dois idiomas em tempo real, alternando automaticamente o idioma de saída com base em quem está falando. Por exemplo, se você fala inglês e quer conversar com um falante de hindi, ouvirá traduções em inglês em tempo real em seus fones de ouvido, enquanto seu telefone transmite em hindi quando você terminar de falar.

A tradução de fala ao vivo do Gemini tem vários recursos importantes que ajudam no mundo real:

  • Cobertura de idiomas: Traduz fala em mais de 70 idiomas e 2000 pares de idiomas, combinando o conhecimento de mundo e as capacidades multilíngues do modelo Gemini com seus recursos de áudio nativo.
  • Transferência de estilo: Captura as nuances da fala humana, preservando a entonação, o ritmo e o tom de voz do falante para que a tradução soe natural.
  • Entrada multilíngue: Entende vários idiomas simultaneamente em uma única sessão, ajudando você a acompanhar conversas multilíngues sem precisar ajustar as configurações de idioma.
  • Detecção automática: Identifica o idioma falado e inicia a tradução, para que você nem precise saber qual idioma está sendo falado para começar a traduzir.
  • Robustez contra ruído: Filtra o ruído ambiente para que você possa conversar confortavelmente mesmo em ambientes externos barulhentos.
Google AI Studio - inline image

2:49

A partir de hoje, você pode experimentá-lo em uma nova experiência beta no aplicativo Google Tradutor para tradução em tempo real em seus fones de ouvido conectando-os ao seu dispositivo e tocando em "Tradução ao vivo". Esta experiência está sendo lançada para todos os dispositivos Android nos EUA, México e Índia, com suporte para iOS e mais regiões em breve.

Com base no feedback, continuaremos a iterar nesta experiência e trazê-la para mais produtos do Google, como a API Gemini, em 2026.

Comece hoje mesmo

Comece a construir agentes de voz hoje mesmo com o Gemini 2.5 Flash Native Audio, agora geralmente disponível no Vertex AI e em preview na API Gemini. Leia nossa documentação para desenvolvedores ou experimente diretamente no Google AI Studio.

Os modelos de texto para fala Gemini 2.5 Flash e 2.5 Pro também estão disponíveis através da API Gemini no Google AI Studio. Comece com a documentação de geração de fala, explore o guia de prompts ou confira o Gemini API Cookbook para começar.

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind

Mais padrões para decifrar

Artigos virais recentes

Explorar mais artigos virais