Crea agenti conversazionali in tempo reale con Gemini 3.1 Flash Live

Oggi lanciamo Gemini 3.1 Flash Live tramite il [Gemini Live API](https://ai.google.dev/gemini-api/docs/live) in Google AI Studio. Gemini 3.1 Flash Live permette agli sviluppatori di creare agenti vocali e visivi in tempo reale che non solo elaborano il mondo circostante, ma rispondono anche alla velocità di una conversazione.

Si tratta di un salto di qualità in termini di latenza, affidabilità e dialoghi più naturali, offrendo le prestazioni necessarie per la prossima generazione di AI vocale.

Latenza, affidabilità e qualità migliorate

Nelle interazioni in tempo reale, ogni millisecondo di latenza spezza il flusso naturale della conversazione che gli utenti si aspettano. Il nuovo modello comprende meglio tono, enfasi e intenzione, consentendo agli agenti di beneficiare di miglioramenti chiave:

Maggior tasso di completamento delle attività in ambienti reali e rumorosi: Abbiamo migliorato significativamente la capacità del modello di attivare strumenti esterni e fornire informazioni durante le conversazioni dal vivo. Discernendo meglio il parlato rilevante dai rumori ambientali come traffico o televisione, il modello filtra in modo più efficace il rumore di fondo per rimanere affidabile e reattivo alle istruzioni.
Migliore aderenza alle istruzioni: L'aderenza a istruzioni di sistema complesse è stata notevolmente potenziata. Il tuo agente rimarrà entro i suoi limiti operativi, anche quando le conversazioni prendono svolte impreviste.
Dialogo più naturale e a bassa latenza: L'ultimo modello migliora la latenza ed è ancora più efficace nel riconoscere sfumature acustiche come tono e ritmo rispetto a 2.5 Flash Native Audio, rendendo le conversazioni in tempo reale molto più fluide e naturali.
Capacità multilingua: Il modello supporta più di 90 lingue per conversazioni multimodali in tempo reale.

Guarda il Gemini Live API in azione

Gli sviluppatori stanno già creando agenti vocali che comunicano con un flusso e un ritmo naturali e agiscono in modo affidabile con i modelli Gemini Flash Live. Ecco alcuni esempi di applicazioni reali che utilizzano il modello per alimentare le loro interazioni conversazionali:

Stitch

Utilizzando il Gemini Live API, Stitch ora permette ai suoi utenti di progettare con la voce. L'agente può 'vedere' la tela e gli schermi selezionati e fornire critiche di design, creare varianti e altro ancora.

Hey Ato

In questa demo, il dispositivo compagno AI per anziani, Ato, utilizza le capacità multilingua di Gemini 3.1 Flash Live per trasformare le conversazioni quotidiane in connessioni reali per i suoi utenti.

Wits End

Scopri come il team di Weekend integra la forte caratterizzazione e la voce naturale di Gemini 3.1 Flash Live per aggiungere un tocco teatrale unico al Game Master nel loro RPG - Wit’s end.

0:52

Crea con un ecosistema di integrazioni in espansione

Il Live API è progettato per ambienti di produzione, ma i sistemi reali richiedono la gestione di input diversi, dai flussi video in diretta alle chiamate telefoniche on-demand.

Per sistemi che necessitano di scaling WebRTC o routing edge globale, ti consigliamo di esplorare le nostre integrazioni partner per semplificare lo sviluppo di agenti vocali e video in tempo reale.

Inizia con il Live API

Gemini 3.1 Flash Live è disponibile da oggi tramite il Gemini API e in Google AI Studio. Gli sviluppatori possono utilizzare il Live API per integrare il modello nella loro applicazione.

Guarda questo

tutorial video

per creare agenti vocali con Gemini 3:

Esplora la nostra documentazione per sviluppatori per imparare come creare agenti in tempo reale.

Documentazione del Live API: Scopri funzionalità come supporto multilingua, uso di strumenti e chiamate di funzione, gestione delle sessioni (per conversazioni lunghe) e token effimeri.
Esempi del Live API: Trova ispirazione per le esperienze vocali che puoi creare oggi con il modello.
Gemini Live API Skill: Per agenti di codifica che apprendono e costruiscono con il Live API.

Inizia con il Google GenAI SDK:

<code-segment id="seg_0" lang="python">

import asyncio

from google import genai

client = genai.Client(api_key="YOUR_API_KEY")

model = "gemini-3.1-flash-live-preview"

config = {"response_modalities": ["AUDIO"]}

async def main():

async with client.aio.live.connect(model=model, config=config) as session:

print("Session started")

Send content...

if __name__ == "__main__":

asyncio.run(main())

Latenza, affidabilità e qualità migliorate