Aujourd'hui, nous lançons Gemini 3.1 Flash Live via l'API Gemini Live dans Google AI Studio. Gemini 3.1 Flash Live permet aux développeurs de créer des agents vocaux et visuels en temps réel capables non seulement de traiter le monde qui les entoure, mais aussi de répondre à la vitesse de la conversation.
Il s'agit d'un changement radical en termes de latence, de fiabilité et de dialogue plus naturel, offrant la qualité nécessaire à la prochaine génération d'IA vocale.
Latence, fiabilité et qualité améliorées
Pour les interactions en temps réel, chaque milliseconde de latence altère le flux naturel de la conversation attendu par les utilisateurs. Le nouveau modèle comprend mieux le ton, l'emphase et l'intention, permettant aux agents d'apporter des améliorations clés :
- Taux d'achèvement des tâches plus élevés dans des environnements réels et bruyants : Nous avons considérablement amélioré la capacité du modèle à déclencher des outils externes et à fournir des informations lors de conversations en direct. En discernant mieux la parole pertinente des bruits ambiants comme la circulation ou la télévision, le modèle filtre plus efficacement les bruits de fond pour rester fiable et réactif aux instructions.
- Meilleure suivie des instructions : L'adhésion à des instructions système complexes a été considérablement renforcée. Votre agent restera dans ses garde-fous opérationnels, même lorsque les conversations prennent des tournures inattendues.
- Dialogue plus naturel et à faible latence : Le dernier modèle améliore la latence et est encore plus efficace pour reconnaître les nuances acoustiques comme la hauteur et le rythme par rapport à 2.5 Flash Native Audio, rendant les conversations en temps réel beaucoup plus fluides et naturelles.
- Capacités multilingues : Le modèle prend en charge plus de 90 langues pour des conversations multimodales en temps réel.
Voir l'API Gemini Live en action
Les développeurs construisent activement des agents vocaux qui communiquent avec un flux et un rythme naturels et effectuent des actions de manière fiable avec les modèles Gemini Flash Live. Voici quelques exemples d'applications réelles qui utilisent le modèle pour alimenter leurs interactions conversationnelles :
Stitch
En utilisant l'API Gemini Live, Stitch permet désormais à ses utilisateurs de concevoir par vibration avec leur voix. L'agent peut « voir » le canevas et les écrans sélectionnés et donner des critiques de design, créer des variations, etc.
Hey Ato
Dans cette démo, l'appareil compagnon IA pour les personnes âgées, Ato, utilise les capacités multilingues de Gemini 3.1 Flash Live pour transformer les conversations quotidiennes en véritables connexions pour ses utilisateurs.
Wits End
Découvrez comment l'équipe Weekend intègre la forte caractérisation et la livraison humaine de Gemini 3.1 Flash Live pour ajouter une touche théâtrale unique au Maître du Jeu dans leur RPG - Wit's End.
0:52
Construisez avec un écosystème d'intégrations en expansion
L'API Live est conçue pour les environnements de production, mais les systèmes réels doivent gérer des entrées diverses, des flux vidéo en direct aux appels téléphoniques à la demande.
Pour les systèmes nécessitant un scaling WebRTC ou un routage global en périphérie, nous vous recommandons d'explorer nos intégrations partenaires pour rationaliser le développement d'agents vocaux et vidéo en temps réel.
Démarrez avec l'API Live
Gemini 3.1 Flash Live est disponible dès aujourd'hui via l'API Gemini et dans Google AI Studio. Les développeurs peuvent utiliser l'API Live de Gemini pour intégrer le modèle dans leur application.
Découvrez ce
pour créer des agents vocaux avec Gemini 3 :
Explorez notre documentation développeur pour apprendre comment créer des agents en temps réel.
- Documentation de l'API Live Gemini : Explorez des fonctionnalités comme le support multilingue, l'utilisation d'outils et l'appel de fonctions, la gestion de session (pour gérer les longues conversations) et les jetons éphémères.
- Exemples de l'API Live Gemini : Inspirez-vous pour les expériences vocales que vous pouvez créer dès aujourd'hui avec le modèle.
- Gemini Live API Skill : Pour que les agents de codage apprennent et construisent avec l'API Live.
Démarrez avec le Google GenAI SDK :
1import asyncio2from google import genai34client = genai.Client(api_key="YOUR_API_KEY")56model = "gemini-3.1-flash-live-preview"7config = {"response_modalities": ["AUDIO"]}89async def main():10 async with client.aio.live.connect(model=model, config=config) as session:11 print("Session started")12 # Send content...1314if __name__ == "__main__":15 asyncio.run(main())






