Gemini 3.1 Flash Live でリアルタイム会話型エージェントを構築する

@GoogleAIStudio
英語3 か月前 · 2026年3月26日
2.7M
2.4K
341
72
4.8K

TL;DR

Google がリアルタイムの音声・視覚インタラクションを実現する低遅延モデル「Gemini 3.1 Flash Live」を発表。指示追従性能が向上し、90 以上の言語をサポートしています。

本日、Google AI Studio の Gemini Live API を通じて、Gemini 3.1 Flash Live をリリースします。Gemini 3.1 Flash Live は、開発者が周囲の環境を処理できるだけでなく、会話の速度で応答するリアルタイム音声・ビジョンエージェントを構築するのを支援します。

これは、レイテンシ、信頼性、より自然な対話における画期的な進歩であり、次世代の音声ファースト AI に必要な品質を提供します。

レイテンシ、信頼性、品質の向上を実現

リアルタイムのインタラクションでは、ミリ秒単位のレイテンシが、ユーザーが期待する会話の自然な流れを損なってしまいます。新しいモデルは、トーン、強調、意図をより良く理解し、エージェントに以下の主要な改善をもたらします。

  • ノイズの多い現実環境でのタスク完了率の向上: ライブ会話中に外部ツールをトリガーし、情報を提供するモデルの能力が大幅に向上しました。交通量やテレビなどの環境音から関連する発話をより適切に識別することで、モデルはバックグラウンドノイズを効果的にフィルタリングし、指示に対して信頼性と応答性を維持します。
  • 指示追従の改善: 複雑なシステム指示への準拠が大幅に向上しました。会話が予期せぬ方向に進んでも、エージェントは運用ガードレール内に留まります。
  • より自然で低レイテンシな対話: 最新のモデルはレイテンシを改善し、2.5 Flash Native Audio ネイティブオーディオと比較して、ピッチやペースなどの音響のニュアンスを認識する能力がさらに向上し、リアルタイムの会話がより流暢で自然に感じられます。
  • 多言語対応: このモデルは、リアルタイムのマルチモーダル会話に 90 以上の言語をサポートしています。

Gemini Live API の動作を確認する

開発者は、Gemini Flash Live モデルを使用して、自然な流れとペースでコミュニケーションし、確実にアクションを実行する音声エージェントを積極的に構築しています。以下は、このモデルを使用して会話型インタラクションを強化する実際のアプリの例です。

Stitch

Gemini Live API を使用して、Stitch はユーザーが音声でデザインを調整できるようになりました。エージェントはキャンバスと選択された画面を「見て」、デザイン批評、バリエーションの作成などを行うことができます。

Google AI Studio - inline image

Hey Ato

このデモでは、高齢者向け AI コンパニオンデバイス Ato が、Gemini 3.1 Flash Live の多言語機能を使用して、日常会話をユーザーにとって本当のつながりに変えています。

Google AI Studio - inline image
Google AI Studio - inline image

Wits End

Weekend チームが Gemini 3.1 Flash Live の強力なキャラクター設定と人間らしい表現を統合して、RPG ゲーム『Wit’s end』のゲームマスターに独自の演劇的な雰囲気を加える様子をご覧ください。

Google AI Studio - inline image

0:52

拡大する統合エコシステムで構築する

Live API は本番環境向けに構築されていますが、実際のシステムでは、ライブビデオストリームからオンデマンドの電話まで、多様な入力を処理する必要があります。

WebRTC スケーリングやグローバルエッジルーティングが必要なシステムには、パートナー統合を検討して、リアルタイムの音声・ビデオエージェントの開発を効率化することをお勧めします。

Google AI Studio - inline image

Live API を始める

Gemini 3.1 Flash Live は、本日より Gemini API および Google AI Studio で利用可能です。開発者は Gemini Live API を使用して、モデルをアプリケーションに統合できます。

こちらをチェック


ビデオチュートリアル

Gemini 3 で音声エージェントを構築する:

開発者向けドキュメントを参照して、リアルタイムエージェントの構築方法を学びましょう。

  • Gemini Live API ドキュメント: 多言語サポート、ツール使用と関数呼び出し、セッション管理(長時間の会話管理用)、一時トークンなどの機能を確認できます。
  • Gemini Live API の例: このモデルで今日構築できる音声体験を構築するためのインスピレーションを得られます。
  • Gemini Live API Skill: コーディングエージェントが Live API を学習して構築するためのスキルです。

Google GenAI SDK で始めましょう。

python
1import asyncio
2from google import genai
3
4client = genai.Client(api_key="YOUR_API_KEY")
5
6model = "gemini-3.1-flash-live-preview"
7config = {"response_modalities": ["AUDIO"]}
8
9async def main():
10 async with client.aio.live.connect(model=model, config=config) as session:
11 print("Session started")
12 # Send content...
13
14if __name__ == "__main__":
15 asyncio.run(main())
Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind
クリエイターのために

あなたの Markdown をきれいな 𝕏 記事に

自分の長文を投稿するとき、画像・表・コードブロックを 𝕏 向けに整形するのは手間がかかります。YouMind は Markdown 全体を、そのまま投稿できるきれいな 𝕏 記事に変換します。

Markdown → 𝕏 を試す

解読すべきパターンをもっと

最近のバイラル記事

バイラル記事をもっと見る