Xây dựng các tác nhân hội thoại thời gian thực với Gemini 3.1 Flash Live

@GoogleAIStudio
TIẾNG ANH3 tháng trước · 26 thg 3, 2026
2.7M
2.4K
341
72
4.8K

TL;DR

Google ra mắt Gemini 3.1 Flash Live, mô hình có độ trễ thấp dành cho các tương tác giọng nói và thị giác thời gian thực, với khả năng tuân thủ hướng dẫn được cải thiện và hỗ trợ hơn 90 ngôn ngữ.

Today, chúng tôi chính thức ra mắt Gemini 3.1 Flash Live thông qua Gemini Live API trên Google AI Studio. Gemini 3.1 Flash Live giúp hỗ trợ các nhà phát triển xây dựng các agent giọng nói và thị giác thời gian thực, không chỉ có thể xử lý thế giới xung quanh mà còn phản hồi với tốc độ của một cuộc trò chuyện.

Đây là bước đột phá về độ trễ, độ tin cậy và hội thoại tự nhiên hơn, mang đến chất lượng cần thiết cho thế hệ AI ưu tiên giọng nói tiếp theo.

Trải nghiệm độ trễ, độ tin cậy và chất lượng được cải thiện

Đối với các tương tác thời gian thực, từng mili giây độ trễ đều làm gián đoạn dòng chảy tự nhiên của cuộc trò chuyện mà người dùng mong đợi. Mô hình mới hiểu rõ hơn về giọng điệu, sự nhấn mạnh và ý định, giúp các agent có những cải tiến chính:

  • Tỷ lệ hoàn thành tác vụ cao hơn trong môi trường thực tế ồn ào: Chúng tôi đã cải thiện đáng kể khả năng của mô hình trong việc kích hoạt các công cụ bên ngoài và cung cấp thông tin trong các cuộc trò chuyện trực tiếp. Bằng cách phân biệt tốt hơn giữa giọng nói liên quan và âm thanh môi trường như tiếng xe cộ hay tivi, mô hình lọc nhiễu nền hiệu quả hơn, duy trì độ tin cậy và phản hồi theo đúng hướng dẫn.
  • Khả năng làm theo hướng dẫn tốt hơn: Việc tuân thủ các hướng dẫn hệ thống phức tạp đã được tăng cường đáng kể. Agent của bạn sẽ luôn nằm trong giới hạn vận hành, ngay cả khi cuộc trò chuyện đi theo những hướng bất ngờ.
  • Đối thoại tự nhiên hơn và độ trễ thấp: Mô hình mới nhất cải thiện độ trễ và nhận diện hiệu quả hơn các sắc thái âm thanh như cao độ và tốc độ so với 2.5 Flash Native Audio, giúp các cuộc trò chuyện thời gian thực trở nên mượt mà và tự nhiên hơn nhiều.
  • Khả năng đa ngôn ngữ: Mô hình hỗ trợ hơn 90 ngôn ngữ cho các cuộc trò chuyện đa phương thức thời gian thực.

Xem Gemini Live API hoạt động

Các nhà phát triển đang tích cực xây dựng các agent giọng nói có thể giao tiếp với dòng chảy và nhịp điệu tự nhiên, đồng thời thực hiện các hành động một cách đáng tin cậy bằng mô hình Gemini Flash Live. Dưới đây là một số ví dụ về ứng dụng thực tế sử dụng mô hình này để hỗ trợ tương tác hội thoại:

Stitch

Sử dụng Gemini Live API, Stitch giờ đây cho phép người dùng thiết kế theo phong cách riêng bằng giọng nói. Agent có thể 'nhìn thấy' canvas và màn hình đã chọn, đưa đưa ra những lời phê bình thiết kế,xây dựng các biến thể và nhiều hơn thế.

Google AI Studio - inline image

Hey Ato

Trong demo này, thiết bị trợ lý AI dành cho người cao tuổi, Ato, sử dụng khả năng đa ngôn ngữ của Gemini 3.1 Flash Live để biến những cuộc trò chuyện hàng ngày thành kết nối thực sự cho người dùng.

Google AI Studio - inline image

Wits End

Xem cách đội ngũ Weekend tích hợp khả năng tạo hình nhân vật mạnh mẽ và cách truyền tải giống con người của Gemini 3.1 Flash Live để thêm nét sân khấu độc đáo vào Game Master trong trò chơi RPG của họ - Wit’s end.

Google AI Studio - inline image

0:52

Xây dựng với hệ sinh thái tích hợp đang mở rộng

Live API được xây dựng cho môi trường sản xuất, nhưng các hệ thống thực tế yêu cầu xử lý nhiều đầu vào khác nhau, từ luồng video trực tiếp đến cuộc gọi điện thoại theo yêu cầu.

Đối với các hệ thống yêu cầu mở rộng WebRTC hoặc định tuyến biên toàn cầu, chúng tôi khuyên bạn nên khám phá các tích hợp đối tác của chúng tôi để hợp lý hóa việc phát triển các agent giọng nói và xem thời gian thực.

Google AI Studio - inline image

Bắt đầu với Live API**

Gemini 3.1 Flash Live có sẵn từ hôm nay thông qua Gemini API và trong Google AI Studio. Nhà phát triển có thể sử dụng Gemini Live API để tích hợp mô hình vào ứng dụng của họ.

Check out this


video tutorial

to build voice agents with Gemini 3:

Khám phá tài liệu dành cho nhà phát triển để biết cách xây dựng các agent thời gian thực.

  • Gemini tài liệu Live API: Khám phá các tính năng như hỗ trợ đa ngôn ngữ, sử dụng công cụ và gọi hàm gọi, quản lý phiên (để quản lý các cuộc trò chuyện dài) và mã thông báo tạm thời.
  • Gemini ví dụ Live API: Lấy cảm hứng cho các loại trải nghiệm giọng nói bạn có thể xây dựng ngay hôm nay với mô hình.
  • Kỹ năng Gemini Live API: Dành cho các agent mã hóa để học và xây dựng với Live API.

Bắt đầu với Google GenAI SDK:

python
1import asyncio
2from google import genai
3
4client = genai.Client(api_key="YOUR_API_KEY")
5
6model = "gemini-3.1-flash-live-preview"
7config = {"response_modalities": ["AUDIO"]}
8
9async def main():
10 async with client.aio.live.connect(model=model, config=config) as session:
11 print("Session started")
12 # Send content...
13
14if __name__ == "__main__":
15 asyncio.run(main())
Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind
Dành cho nhà sáng tạo

Biến Markdown của bạn thành bài viết 𝕏 gọn gàng

Khi bạn đăng bài viết dài của riêng mình, việc định dạng hình ảnh, bảng và khối mã cho 𝕏 rất mệt mỏi. YouMind biến cả bản nháp Markdown thành một bài viết 𝕏 gọn gàng, sẵn sàng để đăng.

Thử Markdown sang 𝕏

Thêm pattern để giải mã

Bài viết viral gần đây

Khám phá thêm bài viết viral