Modelli audio Gemini migliorati per interazioni vocali avanzate

@GoogleAIStudio
INGLESE7 mesi fa · 12 dic 2025
345K
1.5K
184
33
575

TL;DR

Google ha aggiornato Gemini 2.5 Flash Native Audio, migliorando la sua capacità di gestire flussi di lavoro complessi e dialoghi naturali, introducendo al contempo la traduzione vocale live in oltre 70 lingue.

Oggi rilasciamo una versione aggiornata di Gemini 2.5 Flash Native Audio per agenti vocali live. Questo aggiornamento migliora la capacità del modello di gestire flussi di lavoro complessi, seguire le istruzioni degli utenti e sostenere conversazioni naturali.

Gemini 2.5 Flash Native Audio è ora disponibile in vari prodotti Google, tra cui Google AI Studio, Vertex AI, e ha iniziato a essere distribuito anche in Gemini Live e Search Live, portando per la prima volta la naturalezza dell'audio nativo in Search Live. Questo significa che puoi fare brainstorming in modo più efficace con Gemini, ottenere assistenza in tempo reale in Search Live o creare la prossima generazione di agenti per il servizio clienti pronti per le aziende.

Oltre ad alimentare agenti utili, l'audio nativo apre nuove possibilità per la comunicazione globale. Stiamo introducendo la traduzione vocale live, una funzionalità che consente la traduzione vocale in streaming da parlato a parlato per le cuffie. Preserva l'intonazione, il ritmo e il tono di chi parla. Questa esperienza beta è in fase di distribuzione nell'app Google Translate a partire da oggi.

Agenti Vocali Live

Google AI Studio - inline image

Gemini 2.5 Flash Native Audio sta ora abilitando un'ampia gamma di esperienze conversazionali.

Per supportare la varietà di casi d'uso su diverse superfici e prodotti, abbiamo migliorato Gemini 2.5 Native Audio in tre aree chiave:

  • Function calling più preciso: Abbiamo migliorato l'affidabilità del modello nell'attivare funzioni esterne. Ora è in grado di identificare con maggiore precisione quando recuperare informazioni in tempo reale durante una conversazione e integrare perfettamente quei dati nella risposta audio, senza interrompere il flusso. Su ComplexFuncBench Audio, una valutazione che cattura il function calling multi-step con vari vincoli, Gemini 2.5 Native Audio è in testa con un punteggio del 71,5%.
  • Istruzioni seguite in modo robusto: Il modello ora gestisce meglio le istruzioni complesse, con conseguente maggiore soddisfazione dell'utente per la completezza dei contenuti. Con un tasso di aderenza alle istruzioni degli sviluppatori del 90% (rispetto all'84%), fornisce output più affidabili.
  • Conversazioni più fluide: Abbiamo ottenuto miglioramenti significativi nella qualità delle conversazioni multi-turno. Gemini 2.5 Flash Native Audio è in grado di recuperare il contesto dai turni precedenti in modo più efficace, creando conversazioni più coese.

Cosa dicono i clienti

Google AI Studio - inline image

Le prestazioni del nuovo Gemini 2.5 Flash Native Audio rispetto alle versioni precedenti e ai concorrenti del settore su ComplexFuncBench

I clienti di Google Cloud stanno già utilizzando le capacità audio native di Gemini per ottenere risultati aziendali concreti, dall'elaborazione dei mutui alle chiamate con i clienti.

"Gli utenti spesso dimenticano di parlare con un'IA entro un minuto dall'uso di Sidekick e, in alcuni casi, hanno ringraziato il bot dopo una lunga chat... Le nuove capacità dell'API Live offerte tramite Gemini [2.5 Flash Native Audio] permettono ai nostri commercianti di vincere."



David Wurtz, VP of Product, Shopify

"Integrando il modello Gemini 2.5 Flash Native Audio... abbiamo migliorato significativamente le capacità di Mia dal suo lancio a maggio 2025. Questa potente combinazione ci ha permesso di generare oltre 14.000 prestiti per i nostri partner broker."



"



Jason Bressler, Chief Technology Officer, United Wholesale Mortgage (UWM)

"Lavorare con il modello Gemini 2.5 Flash Native Audio tramite Vertex AI consente


Newo.ai

AI Receptionists di raggiungere un'intelligenza conversazionale senza precedenti... . Sono in grado di identificare il parlante principale anche in ambienti rumorosi, cambiare lingua a metà conversazione e suonare in modo straordinariamente naturale ed emotivamente espressivo."



David Yang, Co-fondatore,


Newo.ai

Traduzione Vocale Live

Gemini ora supporta nativamente nuove capacità di traduzione vocale da parlato a parlato live, progettate per gestire sia l'ascolto continuo che la conversazione bidirezionale.

Con l'ascolto continuo, Gemini traduce automaticamente il parlato in più lingue in un'unica lingua di destinazione. Questo ti permette di indossare le cuffie e ascoltare il mondo intorno a te nella tua lingua.

Per la conversazione bidirezionale, la traduzione vocale live di Gemini gestisce la traduzione tra due lingue in tempo reale, cambiando automaticamente la lingua di output in base a chi sta parlando. Ad esempio, se parli inglese e vuoi chattare con un parlante hindi, sentirai le traduzioni in inglese in tempo reale nelle tue cuffie, mentre il tuo telefono trasmetterà in hindi quando avrai finito di parlare.

La traduzione vocale live di Gemini ha una serie di capacità chiave che aiutano nel mondo reale:

  • Copertura linguistica: Traduce il parlato in oltre 70 lingue e 2000 coppie linguistiche, combinando la conoscenza del mondo e le capacità multilingue del modello Gemini con le sue capacità audio native.
  • Trasferimento di stile: Cattura le sfumature del parlato umano, preservando l'intonazione, il ritmo e il tono di chi parla in modo che la traduzione suoni naturale.
  • Input multilingue: Comprende più lingue simultaneamente in una singola sessione, aiutandoti a seguire conversazioni multilingue senza dover armeggiare con le impostazioni della lingua.
  • Rilevamento automatico: Identifica la lingua parlata e avvia la traduzione, così non hai nemmeno bisogno di sapere quale lingua viene parlata per iniziare a tradurre.
  • Robustezza al rumore: Filtra il rumore ambientale in modo da poter conversare comodamente anche in ambienti esterni rumorosi.
Google AI Studio - inline image

2:49

A partire da oggi, puoi provarla in una nuova esperienza beta nell'app Google Translate per la traduzione in tempo reale nelle tue cuffie collegandole al tuo dispositivo e toccando "Traduzione live". Questa esperienza è in fase di distribuzione su tutti i dispositivi Android negli Stati Uniti, Messico e India, con il supporto per iOS e altre regioni in arrivo.

Sulla base del feedback, continueremo a iterare su questa esperienza e a portarla su più prodotti Google come l'API Gemini nel 2026.

Inizia oggi

Inizia a creare agenti vocali oggi con Gemini 2.5 Flash Native Audio, ora generalmente disponibile su Vertex AI e in anteprima su l'API Gemini. Leggi la nostra documentazione per sviluppatori o provalo direttamente in Google AI Studio.

I modelli di sintesi vocale Gemini 2.5 Flash e 2.5 Pro sono anche disponibili tramite l'API Gemini in Google AI Studio. Inizia con la documentazione sulla generazione vocale, esplora la guida al prompting o dai un'occhiata al Gemini API Cookbook per iniziare.

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind

Altri pattern da decodificare

Articoli virali recenti

Esplora altri articoli virali