Modèles audio Gemini améliorés pour des interactions vocales puissantes

Aujourd'hui, nous publions une version mise à jour de Gemini 2.5 Flash Native Audio pour les agents vocaux en direct. Cette mise à jour améliore la capacité du modèle à gérer des flux de travail complexes, à suivre les instructions des utilisateurs et à mener des conversations naturelles.

Gemini 2.5 Flash Native Audio est désormais disponible dans les produits Google, notamment Google AI Studio, Vertex AI, et a également commencé à être déployé dans Gemini Live et Search Live, apportant pour la première fois le naturel de l'audio natif à Search Live. Cela signifie que vous pouvez plus efficacement brainstormer en direct avec Gemini, obtenir de l'aide en temps réel dans Search Live, ou construire la prochaine génération d'agents de service client prêts pour l'entreprise.

Au-delà de l'alimentation d'agents utiles, l'audio natif ouvre de nouvelles possibilités pour la communication mondiale. Nous introduisons la traduction vocale en direct, une capacité qui permet la traduction vocale en streaming de parole à parole pour les écouteurs. Elle préserve l'intonation, le rythme et la tonalité du locuteur. Cette expérience bêta est déployée dans l'application Google Translate à partir d'aujourd'hui.

Agents vocaux en direct

Gemini 2.5 Flash Native Audio permet désormais un large éventail d'expériences conversationnelles.

Pour permettre la diversité des cas d'utilisation sur les surfaces et les produits, nous avons amélioré Gemini 2.5 Native Audio dans trois domaines clés :

Appel de fonctions plus précis : Nous avons amélioré la fiabilité du modèle lors du déclenchement de fonctions externes. Il peut désormais identifier plus précisément quand récupérer des informations en temps réel pendant une conversation et intégrer ces données de manière transparente dans la réponse audio, sans interrompre le flux. Sur ComplexFuncBench Audio, une évaluation qui capture les appels de fonctions en plusieurs étapes avec diverses contraintes, Gemini 2.5 Native Audio est en tête avec un score de 71,5 %.
Suivi robuste des instructions : Le modèle est désormais meilleur pour gérer des instructions complexes, ce qui se traduit par une satisfaction plus élevée des utilisateurs quant à l'exhaustivité du contenu. Avec un taux de conformité de 90 % aux instructions des développeurs (contre 84 % auparavant), il fournit des résultats plus fiables.
Conversations plus fluides : Nous avons réalisé des gains significatifs dans la qualité des conversations à plusieurs tours. Gemini 2.5 Flash Native Audio est capable de récupérer plus efficacement le contexte des tours précédents, créant ainsi des conversations plus cohérentes.

Ce que disent nos clients

Les performances de la version mise à jour de Gemini 2.5 Flash Native Audio par rapport aux versions précédentes et aux concurrents du secteur sur ComplexFuncBench

Les clients de Google Cloud utilisent déjà les capacités audio natives de Gemini pour obtenir des résultats commerciaux concrets, du traitement des prêts hypothécaires aux appels clients.

« Les utilisateurs oublient souvent qu'ils parlent à une IA en moins d'une minute d'utilisation de Sidekick, et dans certains cas, ils ont remercié le bot après une longue conversation… Les nouvelles capacités d'API Live offertes via Gemini [2.5 Flash Native Audio] permettent à nos marchands de gagner. »

David Wurtz, VP Produit, Shopify

« En intégrant le modèle Gemini 2.5 Flash Native Audio… nous avons considérablement amélioré les capacités de Mia depuis son lancement en mai 2025. Cette combinaison puissante nous a permis de générer plus de 14 000 prêts pour nos partenaires courtiers. »

"

Jason Bressler, Directeur Technique, United Wholesale Mortgage (UWM)

« Travailler avec le modèle Gemini 2.5 Flash Native Audio via Vertex AI permet

Newo.ai

Les réceptionnistes IA pour atteindre une intelligence conversationnelle inégalée... Ils peuvent identifier le locuteur principal même dans des environnements bruyants, changer de langue en cours de conversation, et sembler remarquablement naturels et expressifs sur le plan émotionnel. »

David Yang, Co-fondateur,

Newo.ai

Traduction vocale en direct

Gemini prend désormais en charge nativement de nouvelles capacités de traduction vocale en direct de parole à parole, conçues pour gérer à la fois l'écoute continue et la conversation bidirectionnelle.

Avec l'écoute continue, Gemini traduit automatiquement la parole dans plusieurs langues vers une seule langue cible. Cela vous permet de mettre des écouteurs et d'entendre le monde qui vous entoure dans votre langue.

Pour la conversation bidirectionnelle, la traduction vocale en direct de Gemini gère la traduction entre deux langues en temps réel, en changeant automatiquement la langue de sortie en fonction de la personne qui parle. Par exemple, si vous parlez anglais et souhaitez discuter avec un locuteur hindi, vous entendrez les traductions anglaises en temps réel dans vos écouteurs, tandis que votre téléphone diffusera en hindi lorsque vous aurez fini de parler.

La traduction vocale en direct de Gemini possède un certain nombre de capacités clés qui aident dans le monde réel :

Couverture linguistique : Traduire la parole dans plus de 70 langues et 2000 paires de langues en combinant les connaissances mondiales du modèle Gemini et ses capacités multilingues avec ses capacités audio natives.
Transfert de style : Capture les nuances de la parole humaine, en préservant l'intonation, le rythme et la tonalité du locuteur pour que la traduction paraisse naturelle.
Entrée multilingue : Comprend plusieurs langues simultanément en une seule session, vous aidant à suivre des conversations multilingues sans avoir à modifier les paramètres de langue.
Détection automatique : Identifie la langue parlée et commence la traduction, de sorte que vous n'avez même pas besoin de savoir quelle langue est parlée pour commencer à traduire.
Robustesse au bruit : Filtre le bruit ambiant pour que vous puissiez converser confortablement même dans des environnements extérieurs bruyants.

2:49

À partir d'aujourd'hui, vous pouvez l'essayer dans une nouvelle expérience bêta de l'application Google Translate pour la traduction en temps réel dans vos écouteurs en les connectant à votre appareil et en appuyant sur « Live translate ». Cette expérience est déployée sur tous les appareils Android aux États-Unis, au Mexique et en Inde, avec la prise en charge d'iOS et d'autres régions à venir.

Sur la base des retours, nous continuerons à itérer sur cette expérience et à l'apporter à davantage de produits Google comme l'API Gemini en 2026.

Commencez dès aujourd'hui

Commencez à créer des agents vocaux dès aujourd'hui avec Gemini 2.5 Flash Native Audio, désormais généralement disponible sur Vertex AI et en aperçu dans l'API Gemini. Lisez notre documentation développeur ou essayez-le directement dans Google AI Studio.

Les modèles de synthèse vocale Gemini 2.5 Flash et 2.5 Pro sont également disponibles via l'API Gemini dans Google AI Studio. Commencez avec la documentation sur la génération vocale, explorez le guide de prompt, ou consultez le Gemini API Cookbook pour démarrer.

Agents vocaux en direct

Ce que disent nos clients

Traduction vocale en direct

Commencez dès aujourd'hui

Use YouMind to read viral articles deeply

Articles viraux récents

Mémoire Wiki

Mise à jour de la tokenomics

Préparez-vous pour l'AX2026 !

Le calendrier de sortie des 30 ans du JCC Pokémon est dévoilé

Le baseball traverse une crise, et tout le monde le sait

Comment je crée des vidéos UGC par IA performantes pour 2 à 4 $ avec Claude + GPT Image 2 + Seedance 2 + Postiz