Các mô hình âm thanh Gemini được cải tiến cho tương tác giọng nói mạnh mẽ

Hôm nay, chúng tôi phát hành phiên bản cập nhật của Gemini 2.5 Flash Native Audio dành cho các tác nhân giọng nói trực tiếp. Bản cập nhật này cải thiện khả năng của mô hình trong việc xử lý các quy trình phức tạp, điều hướng hướng dẫn người dùng và duy trì các cuộc trò chuyện tự nhiên.

Gemini 2.5 Flash Native Audio hiện có sẵn trên các sản phẩm của Google bao gồm Google AI Studio, Vertex AI, và cũng đã bắt đầu triển khai trên Gemini Live và Search Live, lần đầu tiên mang lại sự tự nhiên của âm thanh gốc cho Search Live. Điều này có nghĩa là bạn có thể động não trực tiếp với Gemini hiệu quả hơn, nhận trợ giúp thời gian thực trên Search Live, hoặc xây dựng thế hệ tiếp theo của các tác nhân dịch vụ khách hàng sẵn sàng cho doanh nghiệp.

Ngoài việc hỗ trợ các tác nhân hữu ích, âm thanh gốc mở ra những khả năng mới cho giao tiếp toàn cầu. Chúng tôi giới thiệu tính năng dịch giọng nói trực tiếp, một khả năng cho phép dịch giọng nói thành giọng nói theo luồng cho tai nghe. Nó giữ nguyên ngữ điệu, nhịp độ và cao độ của người nói. Trải nghiệm beta này đang được triển khai trên ứng dụng Google Translate bắt đầu từ hôm nay.

Live Voice Agents

Gemini 2.5 Flash Native Audio hiện đang hỗ trợ nhiều trải nghiệm hội thoại đa dạng.

Để hỗ trợ nhiều trường hợp sử dụng trên các bề mặt và sản phẩm, chúng tôi đã cải thiện Gemini 2.5 Native Audio ở ba lĩnh vực chính:

Gọi hàm sắc bén hơn: Chúng tôi đã cải thiện độ tin cậy của mô hình khi kích hoạt các hàm bên ngoài. Giờ đây, mô hình có thể xác định chính xác hơn thời điểm cần lấy thông tin thời gian thực trong cuộc trò chuyện và kết hợp dữ liệu đó vào phản hồi âm thanh một cách liền mạch, không làm gián đoạn luồng hội thoại. Trên ComplexFuncBench Audio, một bài đánh giá về gọi hàm nhiều bước với nhiều ràng buộc khác nhau, Gemini 2.5 Native Audio dẫn đầu với điểm số 71.5%.
Tuân theo hướng dẫn mạnh mẽ: Mô hình hiện xử lý tốt hơn các hướng dẫn phức tạp, mang lại sự hài lòng cao hơn cho người dùng về tính đầy đủ của nội dung. Với tỷ lệ tuân thủ hướng dẫn của nhà phát triển là 90% (tăng từ 84%), mô hình cung cấp đầu ra đáng tin cậy hơn.
Hội thoại mượt mà hơn: Chúng tôi đã đạt được những cải thiện đáng kể về chất lượng hội thoại nhiều lượt. Gemini 2.5 Flash Native Audio có thể truy xuất ngữ cảnh từ các lượt trước hiệu quả hơn, tạo ra các cuộc trò chuyện gắn kết hơn.

What customers are saying

Hiệu suất của Gemini 2.5 Flash Native Audio cập nhật so với các phiên bản trước và đối thủ trong ngành trên ComplexFuncBench

Khách hàng của Google Cloud đã và đang sử dụng khả năng âm thanh gốc của Gemini để thúc đẩy kết quả kinh doanh thực tế, từ xử lý thế chấp đến cuộc gọi khách hàng.

“Người dùng thường quên rằng họ đang nói chuyện với AI chỉ trong vòng một phút sử dụng Sidekick, và trong một số trường hợp đã cảm ơn bot sau một cuộc trò chuyện dài… Các khả năng AI mới của Live API được cung cấp qua Gemini [2.5 Flash Native Audio] giúp các thương nhân của chúng tôi chiến thắng.”

David Wurtz, Phó Chủ tịch Sản phẩm, Shopify

“Bằng cách tích hợp mô hình Gemini 2.5 Flash Native Audio… chúng tôi đã nâng cao đáng kể khả năng của Mia kể từ khi ra mắt vào tháng 5 năm 2025. Sự kết hợp mạnh mẽ này đã cho phép chúng tôi tạo ra hơn 14.000 khoản vay cho các đối tác môi giới của mình.

”

Jason Bressler, Giám đốc Công nghệ, United Wholesale Mortgage (UWM)

“Làm việc với mô hình Gemini 2.5 Flash Native Audio thông qua Vertex AI cho phép

Newo.ai

Lễ tân AI để đạt được trí thông minh hội thoại vượt trội... Chúng có thể xác định người nói chính ngay cả trong môi trường ồn ào, chuyển đổi ngôn ngữ giữa cuộc trò chuyện và nghe rất tự nhiên và giàu cảm xúc.”

David Yang, Đồng sáng lập,

Newo.ai

Live Speech Translation

Gemini hiện hỗ trợ gốc các khả năng dịch giọng nói thành giọng nói trực tiếp mới được thiết kế để xử lý cả nghe liên tục và hội thoại hai chiều.

Với tính năng nghe liên tục, Gemini tự động dịch giọng nói bằng nhiều ngôn ngữ sang một ngôn ngữ đích duy nhất. Điều này cho phép bạn đeo tai nghe và nghe thế giới xung quanh bằng ngôn ngữ của mình.

Đối với hội thoại hai chiều, tính năng dịch giọng nói trực tiếp của Gemini xử lý dịch giữa hai ngôn ngữ theo thời gian thực, tự động chuyển đổi ngôn ngữ đầu ra dựa trên người đang nói. Ví dụ, nếu bạn nói tiếng Anh và muốn trò chuyện với người nói tiếng Hindi, bạn sẽ nghe bản dịch tiếng Anh theo thời gian thực trong tai nghe, trong khi điện thoại của bạn phát tiếng Hindi khi bạn nói xong.

Tính năng dịch giọng nói trực tiếp của Gemini có một số khả năng chính giúp ích trong thế giới thực:

Phạm vi ngôn ngữ: Dịch giọng nói bằng hơn 70 ngôn ngữ và 2000 cặp ngôn ngữ bằng cách kết hợp kiến thức thế giới và khả năng đa ngôn ngữ của mô hình Gemini với khả năng âm thanh gốc của nó.
Chuyển đổi phong cách: Nắm bắt sắc thái của giọng nói con người, giữ nguyên ngữ điệu, nhịp độ và cao độ của người nói để bản dịch nghe tự nhiên.
Đầu vào đa ngôn ngữ: Hiểu nhiều ngôn ngữ đồng thời trong một phiên, giúp bạn theo dõi các cuộc trò chuyện đa ngôn ngữ mà không cần phải điều chỉnh cài đặt ngôn ngữ.
Tự động phát hiện: Xác định ngôn ngữ đang được nói và bắt đầu dịch, vì vậy bạn thậm chí không cần biết ngôn ngữ nào đang được nói để bắt đầu dịch.
Chống ồn: Lọc tiếng ồn xung quanh để bạn có thể trò chuyện thoải mái ngay cả trong môi trường ngoài trời ồn ào.

2:49

Bắt đầu từ hôm nay, bạn có thể dùng thử trải nghiệm beta mới trong ứng dụng Google Translate để dịch thời gian thực trong tai nghe của bạn bằng cách kết nối tai nghe với thiết bị và nhấn “Live translate.” Trải nghiệm này đang được triển khai cho tất cả thiết bị Android tại Mỹ, Mexico và Ấn Độ, với hỗ trợ cho iOS và nhiều khu vực khác sắp ra mắt.

Dựa trên phản hồi, chúng tôi sẽ tiếp tục cải tiến trải nghiệm này và mang nó đến nhiều sản phẩm Google hơn như Gemini API vào năm 2026.

Get started today

Bắt đầu xây dựng các tác nhân giọng nói ngay hôm nay với Gemini 2.5 Flash Native Audio, hiện đã có sẵn trên Vertex AI và dưới dạng bản xem trước trên Gemini API. Đọc tài liệu dành cho nhà phát triển của chúng tôi hoặc dùng thử trực tiếp trên Google AI Studio.

Các mô hình chuyển văn bản thành giọng nói Gemini 2.5 Flash và 2.5 Pro cũng có sẵn thông qua Gemini API trong Google AI Studio. Bắt đầu với tài liệu tạo giọng nói, khám phá hướng dẫn tạo prompt, hoặc xem Gemini API Cookbook để bắt đầu.

Live Voice Agents

What customers are saying

Live Speech Translation

Get started today

Use YouMind to read viral articles deeply

Bài viết viral gần đây

Intellectual Manual Labor: A Way to Grow Intangible Assets While Getting Paid

Claude Made Us $30k in 4 Days (Case Study)

The GOAT June Newsletter

I Made My Hermes Agent 10x Faster Without Changing the Model

Tokenomics Update

It Wasn't Stamina or Willpower I Lacked When Working 8 Hours a Day, 5 Days a Week