Gemini 3.1 Flash Live로 실시간 대화형 에이전트 구축하기

@GoogleAIStudio
영어3개월 전 · 2026년 3월 26일
2.7M
2.4K
341
72
4.8K

TL;DR

Google은 실시간 음성 및 비전 상호작용을 위한 저지연 모델인 Gemini 3.1 Flash Live를 출시했습니다. 이 모델은 향상된 지시 이행 능력과 90개 이상의 언어 지원을 특징으로 합니다.

오늘 Google AI Studio 의 Gemini Live API 를 통해 Gemini 3.1 Flash Live 를 출시합니다. Gemini 3.1 Flash Live 를 사용하면 개발자는 주변 세계를 처리할 수 있을 뿐만 아니라 대화 속도에 맞춰 응답하는 실시간 음성 및 비전 에이전트를 구축할 수 있습니다.

이는 지연 시간, 안정성, 보다 자연스러운 대화 측면에서 획기적인 발전으로, 차세대 음성 우선 AI 에 필요한 품질을 제공합니다.

향상된 지연 시간, 안정성 및 품질 체험

실시간 상호작용에서는 지연 시간 1 밀리초가 사용자가 기대하는 대화의 자연스러운 흐름을 방해합니다. 새로운 모델은 어조, 강조 및 의도를 더 잘 이해하여 에이전트에 다음과 같은 주요 개선 사항을 제공합니다.

  • 소음이 많은 실제 환경에서 작업 완료율 향상: 라이브 대화 중에 외부 도구를 트리거하고 정보를 전달하는 모델의 능력이 크게 향상되었습니다. 교통 소음이나 TV 소리와 같은 환경 소음에서 관련 음성을 더 잘 식별하여 배경 소음을 효과적으로 필터링하고 명령에 안정적이고 반응적으로 대처합니다.
  • 향상된 명령 수행: 복잡한 시스템 명령을 따르는 능력이 크게 향상되었습니다. 대화가 예상치 못한 방향으로 흘러가더라도 에이전트가 설정된 운영 가이드라인을 유지합니다.
  • 더 자연스럽고 낮은 지연 시간의 대화: 최신 모델은 지연 시간이 개선되었으며, 2.5 Flash Native Audio 에 비해 음높이와 속도 같은 음향적 미묘함을 인식하는 데 더 효과적이어서 실시간 대화가 훨씬 더 유창하고 자연스럽게 느껴집니다.
  • 다국어 지원: 이 모델은 실시간 다중 모드 대화를 위해 90 개 이상의 언어를 지원합니다.

Gemini Live API 작동 확인

개발자들은 Gemini Flash Live 모델을 사용하여 자연스러운 흐름과 속도로 소통하고 안정적으로 작업을 수행하는 음성 에이전트를 적극적으로 구축하고 있습니다. 다음은 이 모델을 사용하여 대화형 상호작용을 구현하는 실제 앱의 몇 가지 예입니다.

Stitch

Stitch 는 이제 Gemini Live API 를 사용하여 사용자가 음성으로 디자인을 구상할 수 있도록 지원합니다. 에이전트는 캔버스와 선택한 화면을 '보고' 디자인 비평, 변형 제작 등을 수행할 수 있습니다.

Google AI Studio - inline image

Hey Ato

이 데모에서는 노인을 위한 AI 동반자 기기인 Ato 가 Gemini 3.1 Flash Live 의 다국어 기능을 사용하여 일상적인 대화를 사용자와의 진정한 연결로 전환하는 방법을 보여줍니다.

Google AI Studio - inline image

Wits End

Weekend 팀이 Gemini 3.1 Flash Live 의 강력한 캐릭터화와 인간과 같은 전달 방식을 RPG "Wit’s end" 의 게임 마스터에 어떻게 통합하여 독특한 연극적 감각을 더하는지 확인해 보세요.

Google AI Studio - inline image

0:52

확장되는 통합 생태계로 구축

Live API 는 프로덕션 환경을 위해 설계되었지만 실제 시스템은 라이브 비디오 스트림부터 주문형 전화 통화까지 다양한 입력을 처리해야 합니다.

WebRTC 확장 또는 글로벌 에지 라우팅이 필요한 시스템의 경우 파트너 통합을 살펴보고 실시간 음성 및 비디오 에이전트 개발을 간소화하는 것을 권장합니다.

Google AI Studio - inline image

Live API 시작하기**

Gemini 3.1 Flash Live 는 오늘부터 Gemini API 및 Google AI Studio 에서 사용할 수 있습니다. 개발자는 Gemini Live API 를 사용하여 모델을 애플리케이션에 통합할 수 있습니다.


비디오 튜토리얼

을 확인하여 Gemini 3 로 음성 에이전트를 구축해 보세요.

개발자 문서를 살펴보고 실시간 에이전트를 구축하는 방법을 알아보세요.

  • Gemini Live API 문서: 다국어 지원, 도구 사용 및 함수 호출, 세션 관리 (장기 실행 대화 관리용), 임시 토큰과 같은 기능을 살펴보세요.
  • Gemini Live API 예제: 이 모델로 오늘 구축할 수 있는 음성 경험에 대한 영감을 얻으세요.
  • Gemini Live API Skill: 코딩 에이전트가 Live API를 학습하고 구축할 수 있도록 지원합니다.

Google GenAI SDK 로 시작하세요:

python
1import asyncio
2from google import genai
3
4client = genai.Client(api_key="YOUR_API_KEY")
5
6model = "gemini-3.1-flash-live-preview"
7config = {"response_modalities": ["AUDIO"]}
8
9async def main():
10 async with client.aio.live.connect(model=model, config=config) as session:
11 print("Session started")
12 # Send content...
13
14if __name__ == "__main__":
15 asyncio.run(main())
Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind
크리에이터를 위해

당신의 Markdown을 깔끔한 𝕏 글로

직접 쓴 장문을 올릴 때 이미지, 표, 코드 블록을 𝕏에 맞게 정리하는 일은 번거롭습니다. YouMind는 전체 Markdown 초안을 깔끔하고 바로 게시할 수 있는 𝕏 글로 바꿔 줍니다.

Markdown → 𝕏 사용해 보기

분석할 패턴 더 보기

최근 바이럴 아티클

더 많은 바이럴 아티클 보기