より強力な音声対話を実現する Gemini 音声モデルの改善

@GoogleAIStudio
英語7 か月前 · 2025年12月12日
345K
1.5K
184
33
575

TL;DR

Google は Gemini 2.5 Flash Native Audio をアップデートしました。複雑なワークフローや自然な対話への対応能力が強化され、70 以上の言語に対応したライブ音声翻訳機能が導入されました。

本日、ライブ音声エージェント向けに更新された Gemini 2.5 Flash Native Audio をリリースします。このアップデートにより、複雑なワークフローの処理、ユーザー指示の理解、自然な会話の実現におけるモデルの能力が向上します。

Gemini 2.5 Flash Native Audio は、Google AI StudioVertex AI を含む Google 製品全体で利用可能になり、Gemini LiveSearch Live でも展開が開始されました。これにより、Search Live に初めてネイティブオーディオの自然さがもたらされます。つまり、Gemini とライブでより効果的にブレインストーミングしたり、Search Live でリアルタイムのヘルプを得たり、次世代のエンタープライズ対応カスタマーサービスエージェントを構築したりできるようになります。

便利なエージェントを強化するだけでなく、ネイティブオーディオはグローバルコミュニケーションの新たな可能性を切り開きます。ヘッドフォン向けのストリーミング音声間翻訳を可能にするライブ音声翻訳機能を導入します。話者のイントネーション、テンポ、ピッチを保持します。このベータ版体験は、本日より Google Translate アプリ で展開を開始します。

ライブ音声エージェント

Google AI Studio - inline image

Gemini 2.5 Flash Native Audio は、幅広い会話体験を実現しています。

さまざまなサーフェスや製品にわたるユースケースの幅を実現するために、Gemini 2.5 Native Audio を 3 つの主要分野で改善しました。

  • よりシャープな関数呼び出し: 会話中にリアルタイム情報を取得するタイミングをより正確に識別し、そのデータを音声応答にシームレスに織り込み、流れを中断しません。ComplexFuncBench Audio では、さまざまな制約のあるマルチステップ関数呼び出しを評価する指標で、Gemini 2.5 Native Audio が 71.5% のスコアでリードしています。
  • 堅牢な指示追従: 複雑な指示をより適切に処理できるようになり、コンテンツの完全性に関するユーザー満足度が向上しました。開発者指示への遵守率は 90%(従来 84%)で、より信頼性の高い出力を提供します。
  • よりスムーズな会話: マルチターン会話の品質で大幅な向上を達成しました。Gemini 2.5 Flash Native Audio は、以前のターンからより効果的にコンテキストを取得し、より一貫性のある会話を実現します。

お客様の声

Google AI Studio - inline image

更新された Gemini 2.5 Flash Native Audio の ComplexFuncBench における以前のバージョンおよび業界競合他社とのパフォーマンス比較

Google Cloud のお客様 は、住宅ローン処理からカスタマーコールに至るまで、Gemini のネイティブオーディオ機能を活用して実際のビジネス成果を上げています。

「ユーザーは Sidekick を使い始めて 1 分も経たないうちに AI と話していることを忘れてしまい、長いチャットの後にボットに感謝することもあります…Gemini [2.5 Flash Native Audio] が提供する新しい Live API AI 機能により、私たちのマーチャントは成功できるようになります。」



David Wurtz, VP of Product, Shopify

「Gemini 2.5 Flash Native Audio モデルを統合することで…2025 年 5 月のローンチ以来、Mia の機能を大幅に強化しました。この強力な組み合わせにより、ブローカーパートナー向けに 14,000 件以上のローンを生成することができました。」



"



Jason Bressler, Chief Technology Officer, United Wholesale Mortgage (UWM)

「Vertex AI を通じて Gemini 2.5 Flash Native Audio モデルを活用することで、


Newo.ai

AI レセプショニストは、比類のない会話インテリジェンスを実現します...騒がしい環境でも主要な話者を識別し、会話中に言語を切り替え、驚くほど自然で感情表現豊かに聞こえます。」



David Yang, Co-founder,


Newo.ai

ライブ音声翻訳

Gemini は、継続的なリスニングと双方向会話の両方を処理するように設計された新しいライブ音声間翻訳機能をネイティブでサポートするようになりました。

継続的なリスニングでは、Gemini が複数の言語の音声を自動的に 1 つのターゲット言語に翻訳します。これにより、ヘッドフォンを装着して、周囲の世界を自分の言語で聞くことができます。

双方向会話では、Gemini のライブ音声翻訳が 2 つの言語間の翻訳をリアルタイムで処理し、誰が話しているかに基づいて出力言語を自動的に切り替えます。たとえば、あなたが英語を話し、ヒンディー語話者とチャットしたい場合、ヘッドフォンで英語の翻訳をリアルタイムで聞き、あなたが話し終えると電話がヒンディー語をブロードキャストします。

Gemini のライブ音声翻訳には、現実世界で役立ついくつかの主要な機能があります。

  • 言語カバレッジ: Gemini モデルの世界知識と多言語機能をネイティブオーディオ機能と組み合わせることで、70 以上の言語と 2000 の言語ペアで音声を翻訳します。
  • スタイル変換: 人間の音声のニュアンスを捉え、話者のイントネーション、テンポ、ピッチを保持するため、翻訳が自然に聞こえます。
  • 多言語入力: 1 つのセッションで複数の言語を同時に理解し、言語設定をいじる必要なく多言語の会話をフォローできます。
  • 自動検出: 話されている言語を識別して翻訳を開始するため、翻訳を開始するために何の言語が話されているかを知る必要さえありません。
  • ノイズ耐性: 周囲のノイズをフィルタリングするため、騒がしい屋外環境でも快適に会話できます。
Google AI Studio - inline image

2:49

本日より、Google Translate アプリの新しいベータ版体験で、ヘッドフォンをデバイスに接続して「Live translate」をタップすることで、ヘッドフォンでのリアルタイム翻訳 をお試しいただけます。この体験は、米国、メキシコ、インドのすべての Android デバイスに展開されており、iOS とさらなる地域のサポートも近日中に予定されています。

フィードバックに基づき、この体験を継続的に改善し、2026 年には Gemini API などのより多くの Google 製品に提供する予定です。

今すぐ始める

今すぐ Gemini 2.5 Flash Native Audio で音声エージェントの構築を始めましょう。現在、Vertex AI で一般提供、Gemini API でプレビューとして利用可能です。開発者向けドキュメント をお読みいただくか、Google AI Studio で直接お試しください。

Gemini 2.5 Flash および 2.5 Pro テキスト読み上げモデルも、Google AI Studio の Gemini API から利用可能です。音声生成ドキュメント で始め、プロンプトガイド を参照するか、Gemini API Cookbook をご確認ください。

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind

解読すべきパターンをもっと

最近のバイラル記事

バイラル記事をもっと見る