Verbesserte Gemini-Audiomodelle für leistungsstarke Sprachinteraktionen

@GoogleAIStudio
ENGLISCHvor 7 Monaten · 12. Dez. 2025
345K
1.5K
184
33
575

TL;DR

Google hat Gemini 2.5 Flash Native Audio aktualisiert und damit die Fähigkeit verbessert, komplexe Arbeitsabläufe und natürliche Dialoge zu verarbeiten, während gleichzeitig eine Live-Sprach-zu-Sprache-Übersetzung für über 70 Sprachen eingeführt wurde.

Heute veröffentlichen wir ein aktualisiertes Gemini 2.5 Flash Native Audio für Live-Sprachagenten. Dieses Update verbessert die Fähigkeit des Modells, komplexe Arbeitsabläufe zu bewältigen, Benutzeranweisungen zu befolgen und natürliche Gespräche zu führen.

Gemini 2.5 Flash Native Audio ist jetzt in verschiedenen Google-Produkten verfügbar, darunter Google AI Studio, Vertex AI, und wird auch in Gemini Live und Search Live eingeführt, wobei die Natürlichkeit von nativem Audio erstmals in Search Live Einzug hält. Das bedeutet, dass Sie effektiver live mit Gemini brainstormen, in Search Live Echtzeit-Hilfe erhalten oder die nächste Generation von unternehmensreifen Kundenservice-Agenten entwickeln können.

Über die Unterstützung hilfreicher Agenten hinaus eröffnet natives Audio neue Möglichkeiten für die globale Kommunikation. Wir führen Live-Sprachübersetzung ein, eine Funktion, die Streaming-Sprach-zu-Sprach-Übersetzung für Kopfhörer ermöglicht. Dabei werden die Intonation, das Tempo und die Tonhöhe des Sprechers beibehalten. Diese Beta-Erfahrung wird ab heute in der Google Translate App ausgerollt.

Live-Sprachagenten

Google AI Studio - inline image

Gemini 2.5 Flash Native Audio ermöglicht jetzt ein breites Spektrum an Gesprächserfahrungen.

Um die Bandbreite der Anwendungsfälle über verschiedene Oberflächen und Produkte hinweg zu ermöglichen, haben wir Gemini 2.5 Native Audio in drei Schlüsselbereichen verbessert:

  • Präziserer Funktionsaufruf: Wir haben die Zuverlässigkeit des Modells beim Auslösen externer Funktionen verbessert. Es kann jetzt genauer erkennen, wann während eines Gesprächs Echtzeitinformationen abgerufen werden müssen, und diese Daten nahtlos in die Audioantwort einweben, ohne den Gesprächsfluss zu unterbrechen. Im ComplexFuncBench Audio, einem Evaluierungstest, der mehrstufige Funktionsaufrufe mit verschiedenen Einschränkungen erfasst, führt Gemini 2.5 Native Audio mit einer Punktzahl von 71,5 %.
  • Robustes Befolgen von Anweisungen: Das Modell ist jetzt besser darin, komplexe Anweisungen zu verarbeiten, was zu einer höheren Benutzerzufriedenheit hinsichtlich der Vollständigkeit der Inhalte führt. Mit einer Einhaltungsrate von 90 % der Entwickleranweisungen (gegenüber 84 %) liefert es zuverlässigere Ergebnisse.
  • Flüssigere Gespräche: Wir haben erhebliche Fortschritte bei der Qualität von Mehrfachgesprächen erzielt. Gemini 2.5 Flash Native Audio kann Kontext aus vorherigen Gesprächsrunden effektiver abrufen, was zu kohärenteren Gesprächen führt.

Was Kunden sagen

Google AI Studio - inline image

Die Leistung des aktualisierten Gemini 2.5 Flash Native Audio im Vergleich zu früheren Versionen und Branchenwettbewerbern auf ComplexFuncBench

Google Cloud Kunden nutzen bereits die nativen Audiofunktionen von Gemini, um echte Geschäftsergebnisse zu erzielen, von der Hypothekenbearbeitung bis zu Kundenanrufen.

„Benutzer vergessen oft, dass sie mit einer KI sprechen, innerhalb einer Minute nach der Nutzung von Sidekick, und haben sich in einigen Fällen nach einem langen Chat bei dem Bot bedankt… Neue Live-API-KI-Funktionen, die über Gemini [2.5 Flash Native Audio] angeboten werden, befähigen unsere Händler zu gewinnen.“



David Wurtz, VP of Product, Shopify

„Durch die Integration des Gemini 2.5 Flash Native Audio Modells … haben wir die Fähigkeiten von Mia seit der Einführung im Mai 2025 erheblich verbessert. Diese leistungsstarke Kombination hat es uns ermöglicht, über 14.000 Kredite für unsere Maklerpartner zu generieren.



"



Jason Bressler, Chief Technology Officer, United Wholesale Mortgage (UWM)

„Die Arbeit mit dem Gemini 2.5 Flash Native Audio Modell über Vertex AI ermöglicht


Newo.ai

KI-Rezeptionisten, um eine unvergleichliche Gesprächsintelligenz zu erreichen ... Sie können den Hauptsprecher auch in lauten Umgebungen identifizieren, mitten im Gespräch die Sprache wechseln und bemerkenswert natürlich und emotional ausdrucksstark klingen.“



David Yang, Co-founder,


Newo.ai

Live-Sprachübersetzung

Gemini unterstützt jetzt nativ neue Live-Sprach-zu-Sprach-Übersetzungsfunktionen, die sowohl für kontinuierliches Zuhören als auch für wechselseitige Gespräche ausgelegt sind.

Beim kontinuierlichen Zuhören übersetzt Gemini automatisch Sprache in mehreren Sprachen in eine einzelne Zielsprache. So können Sie Kopfhörer aufsetzen und die Welt um sich herum in Ihrer Sprache hören.

Bei wechselseitigen Gesprächen übernimmt die Live-Sprachübersetzung von Gemini die Echtzeit-Übersetzung zwischen zwei Sprachen und wechselt automatisch die Ausgabesprache basierend darauf, wer spricht. Wenn Sie zum Beispiel Englisch sprechen und mit einem Hindi-Sprecher chatten möchten, hören Sie in Echtzeit englische Übersetzungen in Ihren Kopfhörern, während Ihr Telefon Hindi ausgibt, wenn Sie mit dem Sprechen fertig sind.

Die Live-Sprachübersetzung von Gemini bietet eine Reihe wichtiger Funktionen, die in der realen Welt helfen:

  • Sprachabdeckung: Übersetzt Sprache in über 70 Sprachen und 2000 Sprachpaaren durch die Kombination des Weltwissens und der mehrsprachigen Fähigkeiten des Gemini-Modells mit seinen nativen Audiofunktionen.
  • Stilübertragung: Erfasst die Nuancen der menschlichen Sprache und bewahrt die Intonation, das Tempo und die Tonhöhe des Sprechers, sodass die Übersetzung natürlich klingt.
  • Mehrsprachige Eingabe: Versteht mehrere Sprachen gleichzeitig in einer einzigen Sitzung, sodass Sie mehrsprachigen Gesprächen folgen können, ohne an den Spracheinstellungen herumfummeln zu müssen.
  • Automatische Erkennung: Identifiziert die gesprochene Sprache und beginnt mit der Übersetzung, sodass Sie nicht einmal wissen müssen, welche Sprache gesprochen wird, um mit der Übersetzung zu beginnen.
  • Geräuschrobustheit: Filtert Umgebungsgeräusche heraus, sodass Sie auch in lauten Außenumgebungen bequem sprechen können.
Google AI Studio - inline image

2:49

Ab heute können Sie es in einer neuen Beta-Erfahrung in der Google Translate App für Echtzeit-Übersetzung in Ihren Kopfhörern ausprobieren, indem Sie sie mit Ihrem Gerät verbinden und auf „Live übersetzen“ tippen. Diese Erfahrung wird auf allen Android-Geräten in den USA, Mexiko und Indien ausgerollt, mit Unterstützung für iOS und weiteren Regionen in Kürze.

Basierend auf Feedback werden wir diese Erfahrung weiter verbessern und sie 2026 in weitere Google-Produkte wie die Gemini API integrieren.

Jetzt loslegen

Beginnen Sie noch heute mit der Entwicklung von Sprachagenten mit Gemini 2.5 Flash Native Audio, jetzt allgemein verfügbar auf Vertex AI und als Vorschau in der Gemini API. Lesen Sie unsere Entwicklerdokumentation oder probieren Sie es direkt in Google AI Studio aus.

Die Text-zu-Sprache-Modelle Gemini 2.5 Flash und 2.5 Pro sind ebenfalls über die Gemini API in Google AI Studio verfügbar. Beginnen Sie mit der Sprachgenerierungsdokumentation, erkunden Sie den Prompting-Leitfaden oder schauen Sie sich das Gemini API Cookbook an, um loszulegen.

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind

Mehr Muster zum Entschlüsseln

Aktuelle virale Artikel

Mehr virale Artikel entdecken