Modelos de audio Gemini mejorados para interacciones de voz potentes

@GoogleAIStudio
INGLÉShace 7 meses · 12 dic 2025
345K
1.5K
184
33
575

TL;DR

Google ha actualizado Gemini 2.5 Flash Native Audio, mejorando su capacidad para gestionar flujos de trabajo complejos y diálogos naturales, además de introducir la traducción de voz a voz en vivo para más de 70 idiomas.

Hoy lanzamos una versión actualizada de Gemini 2.5 Flash Native Audio para agentes de voz en vivo. Esta actualización mejora la capacidad del modelo para manejar flujos de trabajo complejos, seguir instrucciones del usuario y mantener conversaciones naturales.

Gemini 2.5 Flash Native Audio ya está disponible en varios productos de Google, incluidos Google AI Studio, Vertex AI, y también ha comenzado a implementarse en Gemini Live y Search Live, llevando la naturalidad del audio nativo a Search Live por primera vez. Esto significa que puedes hacer lluvia de ideas en vivo con Gemini de manera más efectiva, obtener ayuda en tiempo real en Search Live o construir la próxima generación de agentes de atención al cliente listos para empresas.

Más allá de potenciar agentes útiles, el audio nativo abre nuevas posibilidades para la comunicación global. Estamos presentando la traducción de voz en vivo, una capacidad que permite la traducción de voz a voz en streaming para auriculares. Preserva la entonación, el ritmo y el tono del hablante. Esta experiencia beta se está implementando en la aplicación de Google Translate a partir de hoy.

Agentes de Voz en Vivo

Google AI Studio - inline image

Gemini 2.5 Flash Native Audio ahora está habilitando un amplio espectro de experiencias conversacionales.

Para habilitar la amplitud de casos de uso en todas las superficies y productos, hemos mejorado Gemini 2.5 Native Audio en tres áreas clave:

  • Llamada a funciones más precisa: Hemos mejorado la confiabilidad del modelo al activar funciones externas. Ahora puede identificar con mayor precisión cuándo obtener información en tiempo real durante una conversación e integrar esos datos sin problemas en la respuesta de audio, sin interrumpir el flujo. En ComplexFuncBench Audio, una evaluación que captura llamadas a funciones de múltiples pasos con varias restricciones, Gemini 2.5 Native Audio lidera con una puntuación del 71.5%.
  • Seguimiento robusto de instrucciones: El modelo ahora es mejor para manejar instrucciones complejas, lo que resulta en una mayor satisfacción del usuario en cuanto a la integridad del contenido. Con una tasa de adherencia del 90% a las instrucciones del desarrollador (frente al 84%), ofrece resultados más confiables.
  • Conversaciones más fluidas: Hemos logrado avances significativos en la calidad de las conversaciones de múltiples turnos. Gemini 2.5 Flash Native Audio puede recuperar el contexto de turnos anteriores de manera más efectiva, creando conversaciones más coherentes.

Lo que dicen los clientes

Google AI Studio - inline image

El rendimiento de la actualizada Gemini 2.5 Flash Native Audio frente a versiones anteriores y competidores de la industria en ComplexFuncBench

Los clientes de Google Cloud ya están utilizando las capacidades de audio nativo de Gemini para impulsar resultados comerciales reales, desde el procesamiento de hipotecas hasta llamadas de clientes.

“Los usuarios a menudo olvidan que están hablando con una IA al minuto de usar Sidekick, y en algunos casos han agradecido al bot después de una larga conversación… Las nuevas capacidades de IA de Live API ofrecidas a través de Gemini [2.5 Flash Native Audio] empoderan a nuestros comerciantes para ganar.”



David Wurtz, VP de Producto, Shopify

“Al integrar el modelo Gemini 2.5 Flash Native Audio… hemos mejorado significativamente las capacidades de Mia desde su lanzamiento en mayo de 2025. Esta poderosa combinación nos ha permitido generar más de 14,000 préstamos para nuestros socios corredores.



"



Jason Bressler, Director de Tecnología, United Wholesale Mortgage (UWM)

“Trabajar con el modelo Gemini 2.5 Flash Native Audio a través de Vertex AI permite


Newo.ai

a los recepcionistas de IA lograr una inteligencia conversacional incomparable... Pueden identificar al hablante principal incluso en entornos ruidosos, cambiar de idioma a mitad de la conversación y sonar notablemente naturales y expresivos emocionalmente.”



David Yang, Co-fundador,


Newo.ai

Traducción de Voz en Vivo

Gemini ahora admite de forma nativa nuevas capacidades de traducción de voz a voz en vivo diseñadas para manejar tanto la escucha continua como la conversación bidireccional.

Con la escucha continua, Gemini traduce automáticamente el habla en varios idiomas a un solo idioma de destino. Esto te permite ponerte los auriculares y escuchar el mundo que te rodea en tu idioma.

Para la conversación bidireccional, la traducción de voz en vivo de Gemini maneja la traducción entre dos idiomas en tiempo real, cambiando automáticamente el idioma de salida según quién esté hablando. Por ejemplo, si hablas inglés y quieres conversar con un hablante de hindi, escucharás traducciones al inglés en tiempo real en tus auriculares, mientras que tu teléfono transmitirá en hindi cuando termines de hablar.

La traducción de voz en vivo de Gemini tiene varias capacidades clave que ayudan en el mundo real:

  • Cobertura de idiomas: Traduce el habla en más de 70 idiomas y 2000 pares de idiomas combinando el conocimiento mundial del modelo Gemini y sus capacidades multilingües con sus capacidades de audio nativo.
  • Transferencia de estilo: Captura los matices del habla humana, preservando la entonación, el ritmo y el tono del hablante para que la traducción suene natural.
  • Entrada multilingüe: Comprende múltiples idiomas simultáneamente en una sola sesión, ayudándote a seguir conversaciones multilingües sin necesidad de ajustar la configuración de idioma.
  • Detección automática: Identifica el idioma hablado y comienza la traducción, por lo que ni siquiera necesitas saber qué idioma se está hablando para empezar a traducir.
  • Robustez contra el ruido: Filtra el ruido ambiental para que puedas conversar cómodamente incluso en entornos ruidosos al aire libre.
Google AI Studio - inline image

2:49

A partir de hoy, puedes probarlo en una nueva experiencia beta en la aplicación de Google Translate para traducción en tiempo real en tus auriculares conectándolos a tu dispositivo y tocando "Traducción en vivo". Esta experiencia se está implementando en todos los dispositivos Android en EE. UU., México e India, con soporte para iOS y más regiones próximamente.

Basándonos en los comentarios, continuaremos iterando en esta experiencia y la llevaremos a más productos de Google, como la API de Gemini en 2026.

Comienza hoy

Comienza a construir agentes de voz hoy con Gemini 2.5 Flash Native Audio, ahora disponible de forma general en Vertex AI y como vista previa en la API de Gemini. Lee nuestra documentación para desarrolladores o pruébalo directamente en Google AI Studio.

Los modelos de texto a voz Gemini 2.5 Flash y 2.5 Pro también están disponibles a través de la API de Gemini en Google AI Studio. Comienza con la documentación de generación de voz, explora la guía de indicaciones o revisa el Gemini API Cookbook para empezar.

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind

Más patrones por descifrar

Artículos virales recientes

Explorar más artículos virales