Gemini 3.1 Flash Live でリアルタイム会話型エージェントを構築する

本日、Google AI Studio の Gemini Live API を通じて、Gemini 3.1 Flash Live をリリースします。Gemini 3.1 Flash Live は、開発者が周囲の環境を処理できるだけでなく、会話の速度で応答するリアルタイム音声・ビジョンエージェントを構築するのを支援します。

これは、レイテンシ、信頼性、より自然な対話における画期的な進歩であり、次世代の音声ファースト AI に必要な品質を提供します。

レイテンシ、信頼性、品質の向上を実現

リアルタイムのインタラクションでは、ミリ秒単位のレイテンシが、ユーザーが期待する会話の自然な流れを損なってしまいます。新しいモデルは、トーン、強調、意図をより良く理解し、エージェントに以下の主要な改善をもたらします。

ノイズの多い現実環境でのタスク完了率の向上: ライブ会話中に外部ツールをトリガーし、情報を提供するモデルの能力が大幅に向上しました。交通量やテレビなどの環境音から関連する発話をより適切に識別することで、モデルはバックグラウンドノイズを効果的にフィルタリングし、指示に対して信頼性と応答性を維持します。
指示追従の改善: 複雑なシステム指示への準拠が大幅に向上しました。会話が予期せぬ方向に進んでも、エージェントは運用ガードレール内に留まります。
より自然で低レイテンシな対話: 最新のモデルはレイテンシを改善し、2.5 Flash Native Audio ネイティブオーディオと比較して、ピッチやペースなどの音響のニュアンスを認識する能力がさらに向上し、リアルタイムの会話がより流暢で自然に感じられます。
多言語対応: このモデルは、リアルタイムのマルチモーダル会話に 90 以上の言語をサポートしています。

Gemini Live API の動作を確認する

開発者は、Gemini Flash Live モデルを使用して、自然な流れとペースでコミュニケーションし、確実にアクションを実行する音声エージェントを積極的に構築しています。以下は、このモデルを使用して会話型インタラクションを強化する実際のアプリの例です。

Stitch

Gemini Live API を使用して、Stitch はユーザーが音声でデザインを調整できるようになりました。エージェントはキャンバスと選択された画面を「見て」、デザイン批評、バリエーションの作成などを行うことができます。

Hey Ato

このデモでは、高齢者向け AI コンパニオンデバイス Ato が、Gemini 3.1 Flash Live の多言語機能を使用して、日常会話をユーザーにとって本当のつながりに変えています。

Wits End

Weekend チームが Gemini 3.1 Flash Live の強力なキャラクター設定と人間らしい表現を統合して、RPG ゲーム『Wit’s end』のゲームマスターに独自の演劇的な雰囲気を加える様子をご覧ください。

0:52

拡大する統合エコシステムで構築する

Live API は本番環境向けに構築されていますが、実際のシステムでは、ライブビデオストリームからオンデマンドの電話まで、多様な入力を処理する必要があります。

WebRTC スケーリングやグローバルエッジルーティングが必要なシステムには、パートナー統合を検討して、リアルタイムの音声・ビデオエージェントの開発を効率化することをお勧めします。

Live API を始める

Gemini 3.1 Flash Live は、本日より Gemini API および Google AI Studio で利用可能です。開発者は Gemini Live API を使用して、モデルをアプリケーションに統合できます。

こちらをチェック

ビデオチュートリアル

Gemini 3 で音声エージェントを構築する:

開発者向けドキュメントを参照して、リアルタイムエージェントの構築方法を学びましょう。

Gemini Live API ドキュメント: 多言語サポート、ツール使用と関数呼び出し、セッション管理（長時間の会話管理用）、一時トークンなどの機能を確認できます。
Gemini Live API の例: このモデルで今日構築できる音声体験を構築するためのインスピレーションを得られます。
Gemini Live API Skill: コーディングエージェントが Live API を学習して構築するためのスキルです。

Google GenAI SDK で始めましょう。

python

1import asyncio
2from google import genai
3
4client = genai.Client(api_key="YOUR_API_KEY")
5
6model = "gemini-3.1-flash-live-preview"
7config = {"response_modalities": ["AUDIO"]}
8
9async def main():
10    async with client.aio.live.connect(model=model, config=config) as session:
11        print("Session started")
12        # Send content...
13
14if __name__ == "__main__":
15    asyncio.run(main())

レイテンシ、信頼性、品質の向上を実現

Gemini Live API の動作を確認する

Stitch

Hey Ato

Wits End

拡大する統合エコシステムで構築する

Live API を始める

Use YouMind to read viral articles deeply

最近のバイラル記事

I Gave My Second Brain 1,500 Conversations and It Changed Everything

Everything Fable 5.

Scaling Laws, Honestly

60 Claude Opus 4.8 Workflows That Make Money While You Sleep

How To Build Anything With Claude Fable 5: All You Need To Know About The Most Powerful AI Model

How to turn a boring app into $10M with one mascot

Gemini 3.1 Flash Live でリアルタイム会話型エージェントを構築する

レイテンシ、信頼性、品質の向上を実現

Gemini Live API の動作を確認する

Stitch

Hey Ato

Wits End

拡大する統合エコシステムで構築する

Live API を始める

Use YouMind to read viral articles deeply

あなたの Markdown をきれいな 𝕏 記事に

最近のバイラル記事

I Gave My Second Brain 1,500 Conversations and It Changed Everything

Everything Fable 5.

Scaling Laws, Honestly

60 Claude Opus 4.8 Workflows That Make Money While You Sleep

How To Build Anything With Claude Fable 5: All You Need To Know About The Most Powerful AI Model

How to turn a boring app into $10M with one mascot