Xây dựng các tác nhân hội thoại thời gian thực với Gemini 3.1 Flash Live

Today, chúng tôi chính thức ra mắt Gemini 3.1 Flash Live thông qua Gemini Live API trên Google AI Studio. Gemini 3.1 Flash Live giúp hỗ trợ các nhà phát triển xây dựng các agent giọng nói và thị giác thời gian thực, không chỉ có thể xử lý thế giới xung quanh mà còn phản hồi với tốc độ của một cuộc trò chuyện.

Đây là bước đột phá về độ trễ, độ tin cậy và hội thoại tự nhiên hơn, mang đến chất lượng cần thiết cho thế hệ AI ưu tiên giọng nói tiếp theo.

Trải nghiệm độ trễ, độ tin cậy và chất lượng được cải thiện

Đối với các tương tác thời gian thực, từng mili giây độ trễ đều làm gián đoạn dòng chảy tự nhiên của cuộc trò chuyện mà người dùng mong đợi. Mô hình mới hiểu rõ hơn về giọng điệu, sự nhấn mạnh và ý định, giúp các agent có những cải tiến chính:

Tỷ lệ hoàn thành tác vụ cao hơn trong môi trường thực tế ồn ào: Chúng tôi đã cải thiện đáng kể khả năng của mô hình trong việc kích hoạt các công cụ bên ngoài và cung cấp thông tin trong các cuộc trò chuyện trực tiếp. Bằng cách phân biệt tốt hơn giữa giọng nói liên quan và âm thanh môi trường như tiếng xe cộ hay tivi, mô hình lọc nhiễu nền hiệu quả hơn, duy trì độ tin cậy và phản hồi theo đúng hướng dẫn.
Khả năng làm theo hướng dẫn tốt hơn: Việc tuân thủ các hướng dẫn hệ thống phức tạp đã được tăng cường đáng kể. Agent của bạn sẽ luôn nằm trong giới hạn vận hành, ngay cả khi cuộc trò chuyện đi theo những hướng bất ngờ.
Đối thoại tự nhiên hơn và độ trễ thấp: Mô hình mới nhất cải thiện độ trễ và nhận diện hiệu quả hơn các sắc thái âm thanh như cao độ và tốc độ so với 2.5 Flash Native Audio, giúp các cuộc trò chuyện thời gian thực trở nên mượt mà và tự nhiên hơn nhiều.
Khả năng đa ngôn ngữ: Mô hình hỗ trợ hơn 90 ngôn ngữ cho các cuộc trò chuyện đa phương thức thời gian thực.

Xem Gemini Live API hoạt động

Các nhà phát triển đang tích cực xây dựng các agent giọng nói có thể giao tiếp với dòng chảy và nhịp điệu tự nhiên, đồng thời thực hiện các hành động một cách đáng tin cậy bằng mô hình Gemini Flash Live. Dưới đây là một số ví dụ về ứng dụng thực tế sử dụng mô hình này để hỗ trợ tương tác hội thoại:

Stitch

Sử dụng Gemini Live API, Stitch giờ đây cho phép người dùng thiết kế theo phong cách riêng bằng giọng nói. Agent có thể 'nhìn thấy' canvas và màn hình đã chọn, đưa đưa ra những lời phê bình thiết kế,xây dựng các biến thể và nhiều hơn thế.

Hey Ato

Trong demo này, thiết bị trợ lý AI dành cho người cao tuổi, Ato, sử dụng khả năng đa ngôn ngữ của Gemini 3.1 Flash Live để biến những cuộc trò chuyện hàng ngày thành kết nối thực sự cho người dùng.

Wits End

Xem cách đội ngũ Weekend tích hợp khả năng tạo hình nhân vật mạnh mẽ và cách truyền tải giống con người của Gemini 3.1 Flash Live để thêm nét sân khấu độc đáo vào Game Master trong trò chơi RPG của họ - Wit’s end.

0:52

Xây dựng với hệ sinh thái tích hợp đang mở rộng

Live API được xây dựng cho môi trường sản xuất, nhưng các hệ thống thực tế yêu cầu xử lý nhiều đầu vào khác nhau, từ luồng video trực tiếp đến cuộc gọi điện thoại theo yêu cầu.

Đối với các hệ thống yêu cầu mở rộng WebRTC hoặc định tuyến biên toàn cầu, chúng tôi khuyên bạn nên khám phá các tích hợp đối tác của chúng tôi để hợp lý hóa việc phát triển các agent giọng nói và xem thời gian thực.

Bắt đầu với Live API**

Gemini 3.1 Flash Live có sẵn từ hôm nay thông qua Gemini API và trong Google AI Studio. Nhà phát triển có thể sử dụng Gemini Live API để tích hợp mô hình vào ứng dụng của họ.

Check out this

video tutorial

to build voice agents with Gemini 3:

Khám phá tài liệu dành cho nhà phát triển để biết cách xây dựng các agent thời gian thực.

Gemini tài liệu Live API: Khám phá các tính năng như hỗ trợ đa ngôn ngữ, sử dụng công cụ và gọi hàm gọi, quản lý phiên (để quản lý các cuộc trò chuyện dài) và mã thông báo tạm thời.
Gemini ví dụ Live API: Lấy cảm hứng cho các loại trải nghiệm giọng nói bạn có thể xây dựng ngay hôm nay với mô hình.
Kỹ năng Gemini Live API: Dành cho các agent mã hóa để học và xây dựng với Live API.

Bắt đầu với Google GenAI SDK:

python

1import asyncio
2from google import genai
3
4client = genai.Client(api_key="YOUR_API_KEY")
5
6model = "gemini-3.1-flash-live-preview"
7config = {"response_modalities": ["AUDIO"]}
8
9async def main():
10    async with client.aio.live.connect(model=model, config=config) as session:
11        print("Session started")
12        # Send content...
13
14if __name__ == "__main__":
15    asyncio.run(main())

Trải nghiệm độ trễ, độ tin cậy và chất lượng được cải thiện