강력한 음성 상호작용을 위한 향상된 Gemini 오디오 모델

@GoogleAIStudio
영어7개월 전 · 2025년 12월 12일
345K
1.5K
184
33
575

TL;DR

Google은 Gemini 2.5 Flash Native Audio를 업데이트하여 복잡한 워크플로우 처리 및 자연스러운 대화 능력을 강화했으며, 70개 이상의 언어에 대한 실시간 음성 대 음성 번역 기능을 도입했습니다.

오늘, 우리는 라이브 음성 에이전트를 위한 업데이트된 Gemini 2.5 Flash Native Audio를 출시합니다. 이번 업데이트는 복잡한 워크플로우를 처리하고, 사용자 지침을 탐색하며, 자연스러운 대화를 유지하는 모델의 능력을 향상시킵니다.

Gemini 2.5 Flash Native Audio는 이제 Google AI Studio, Vertex AI를 포함한 Google 제품 전반에서 사용할 수 있으며, Gemini LiveSearch Live에도 롤아웃되기 시작했습니다. 이로써 Search Live에 처음으로 네이티브 오디오의 자연스러움이 도입되었습니다. 이제 Gemini와 함께 더 효과적으로 브레인스토밍하고, Search Live에서 실시간 도움을 받거나, 차세대 엔터프라이즈급 고객 서비스 에이전트를 구축할 수 있습니다.

유용한 에이전트를 지원하는 것 외에도, 네이티브 오디오는 글로벌 커뮤니케이션의 새로운 가능성을 열어줍니다. 우리는 라이브 음성 번역을 도입합니다. 이 기능은 헤드폰을 위한 스트리밍 음성 간 번역을 가능하게 합니다. 화자의 억양, 속도 및 음높이를 보존합니다. 이 베타 경험은 오늘부터 Google Translate 앱에서 롤아웃됩니다.

라이브 음성 에이전트

Google AI Studio - inline image

Gemini 2.5 Flash Native Audio는 이제 다양한 대화 경험을 가능하게 합니다.

표면과 제품 전반에 걸친 다양한 사용 사례를 지원하기 위해, 우리는 Gemini 2.5 Native Audio를 세 가지 주요 영역에서 개선했습니다:

  • 더욱 정교한 함수 호출: 외부 함수를 트리거할 때 모델의 신뢰성을 개선했습니다. 이제 대화 중 실시간 정보를 가져와야 하는 시점을 더 정확하게 식별하고, 흐름을 끊지 않고 해당 데이터를 오디오 응답에 자연스럽게 통합할 수 있습니다. 다양한 제약 조건이 있는 다단계 함수 호출을 포착하는 평가인 ComplexFuncBench Audio에서 Gemini 2.5 Native Audio는 71.5%의 점수로 선두를 달리고 있습니다.
  • 강력한 지침 준수: 이제 모델이 복잡한 지침을 더 잘 처리하여 콘텐츠 완성도에 대한 사용자 만족도가 높아졌습니다. 개발자 지침 준수율이 90%(기존 84%)로 향상되어 더욱 신뢰할 수 있는 출력을 제공합니다.
  • 더욱 부드러운 대화: 다중 턴 대화 품질에서 상당한 개선을 이루었습니다. Gemini 2.5 Flash Native Audio는 이전 턴의 컨텍스트를 더 효과적으로 검색하여 더욱 응집력 있는 대화를 생성할 수 있습니다.

고객들의 평가

Google AI Studio - inline image

ComplexFuncBench에서 이전 버전 및 업계 경쟁사 대비 업데이트된 Gemini 2.5 Flash Native Audio의 성능

Google Cloud 고객들은 이미 Gemini의 네이티브 오디오 기능을 사용하여 모기지 처리부터 고객 통화에 이르기까지 실제 비즈니스 성과를 창출하고 있습니다.

"사용자들은 Sidekick을 사용한 지 1분 만에 AI와 대화하고 있다는 사실을 잊어버리는 경우가 많으며, 긴 대화 후에는 봇에게 감사 인사를 하기도 합니다... Gemini [2.5 Flash Native Audio]를 통해 제공되는 새로운 Live API AI 기능은 당사의 판매자들이 성공할 수 있도록 지원합니다."



David Wurtz, Shopify 제품 부문 부사장

"Gemini 2.5 Flash Native Audio 모델을 통합함으로써... 2025년 5월 출시 이후 Mia의 기능을 크게 향상시켰습니다. 이 강력한 조합을 통해 브로커 파트너를 위해 14,000건 이상의 대출을 생성할 수 있었습니다.



"



Jason Bressler, United Wholesale Mortgage (UWM) 최고 기술 책임자

"Vertex AI를 통해 Gemini 2.5 Flash Native Audio 모델과 협력함으로써


Newo.ai

AI 리셉셔니스트는 비교할 수 없는 대화형 인텔리전스를 달성할 수 있습니다... 시끄러운 환경에서도 주요 화자를 식별하고, 대화 중간에 언어를 전환하며, 놀랍도록 자연스럽고 감정적으로 표현하는 소리를 낼 수 있습니다."



David Yang, 공동 창업자,


Newo.ai

라이브 음성 번역

Gemini는 이제 지속적인 듣기와 양방향 대화를 모두 처리하도록 설계된 새로운 라이브 음성 간 번역 기능을 기본적으로 지원합니다.

지속적인 듣기를 통해 Gemini는 여러 언어의 음성을 단일 대상 언어로 자동 번역합니다. 이를 통해 헤드폰을 끼고 주변 세상을 내 언어로 들을 수 있습니다.

양방향 대화의 경우, Gemini의 라이브 음성 번역은 두 언어 간의 번역을 실시간으로 처리하며, 누가 말하고 있는지에 따라 출력 언어를 자동으로 전환합니다. 예를 들어, 영어를 구사하고 힌디어 사용자와 대화하고 싶다면 헤드폰으로 실시간 영어 번역을 듣게 되고, 내가 말을 마치면 휴대폰에서 힌디어가 방송됩니다.

Gemini의 라이브 음성 번역은 실제 환경에서 도움이 되는 여러 핵심 기능을 갖추고 있습니다:

  • 언어 지원 범위: Gemini 모델의 세계 지식 및 다국어 기능과 네이티브 오디오 기능을 결합하여 70개 이상의 언어와 2000개의 언어 쌍에 대한 음성 번역을 지원합니다.
  • 스타일 전환: 인간 음성의 미묘한 차이를 포착하여 화자의 억양, 속도 및 음높이를 보존하므로 번역이 자연스럽게 들립니다.
  • 다국어 입력: 단일 세션에서 여러 언어를 동시에 이해하므로 언어 설정을 조작할 필요 없이 다국어 대화를 따라갈 수 있습니다.
  • 자동 감지: 사용된 언어를 식별하고 번역을 시작하므로, 번역을 시작하기 위해 어떤 언어가 사용되는지 알 필요조차 없습니다.
  • 소음 내성: 주변 소음을 필터링하여 시끄러운 야외 환경에서도 편안하게 대화할 수 있습니다.
Google AI Studio - inline image

2:49

오늘부터 Google Translate 앱의 새로운 베타 경험에서 헤드폰 실시간 번역을 사용해 볼 수 있습니다. 헤드폰을 기기에 연결하고 "실시간 번역"을 탭하면 됩니다. 이 경험은 미국, 멕시코 및 인도의 모든 Android 기기로 롤아웃되며, iOS 및 더 많은 지역에 대한 지원도 곧 제공될 예정입니다.

피드백을 바탕으로 이 경험을 계속 개선하고 2026년에는 Gemini API와 같은 더 많은 Google 제품에 도입할 예정입니다.

지금 바로 시작하세요

지금 바로 Gemini 2.5 Flash Native Audio로 음성 에이전트를 구축해 보세요. 이제 Vertex AI에서 일반 공급되며, Gemini API에서 프리뷰로 제공됩니다. 개발자 문서를 읽거나 Google AI Studio에서 직접 사용해 보세요.

Gemini 2.5 Flash 및 2.5 Pro 텍스트 음성 변환 모델도 Google AI Studio의 Gemini API를 통해 사용할 수 있습니다. 음성 생성 문서를 시작하고, 프롬프트 가이드를 살펴보거나, Gemini API Cookbook을 확인하여 시작해 보세요.

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind

분석할 패턴 더 보기

최근 바이럴 아티클

더 많은 바이럴 아티클 보기