Phát triển AI giọng nói thời gian thực cho thế giới đa ngôn ngữ

@stevejang
TIẾNG ANH2 ngày trước · 30 thg 6, 2026
1.3M
108
24
5
39

TL;DR

Kindred Ventures đã dẫn đầu vòng gọi vốn hạt giống trị giá 10 triệu đô la cho Kotoba, một phòng thí nghiệm nghiên cứu đang phát triển các mô hình AI giọng nói và dịch thuật thời gian thực được xây dựng chuyên biệt cho thị trường Nhật Bản, Hàn Quốc và Trung Quốc.

Đối với nhiều người trong chúng ta ở Thung lũng Silicon và các trung tâm toàn cầu tương tự, chúng ta đều nhận thức rõ rằng AI giọng nói đang nhanh chóng trở thành phương thức cốt lõi mới trong cách mọi người làm việc, giao tiếp và tương tác với các tác nhân cũng như với nhau. Sự chuyển dịch này trở nên đặc biệt rõ ràng khi các hệ thống tác nhân ngày càng vượt ra ngoài lĩnh vực lập trình để thâm nhập vào các lĩnh vực công việc tri thức mới như Perplexity Computer và Claude Cowork, các ứng dụng hướng tới người tiêu dùng như Wispr Flow, Sierra và Granola, cũng như các thể hiện tác nhân trong vô số ô tô, robot và thiết bị đeo. Tuy nhiên, bên ngoài khu vực của chúng ta, nhiều ngôn ngữ quan trọng nhất thế giới vẫn bị xem nhẹ và hầu như chưa có tiến triển nào trong việc kết nối các ngôn ngữ này cũng như những người nói chúng.

Theo thống kê hiện tại, châu Á hiện là nơi sinh sống của gần 5 tỷ người. Riêng Đông Á đã chiếm 1,6 tỷ người – 20% dân số toàn cầu. Khoảng một nửa số nhân viên tri thức trên thế giới nói một ngôn ngữ châu Á. Một bộ mô hình AI giọng nói mới, được huấn luyện đặc biệt cho các ngôn ngữ châu Á, sẽ cho phép chúng ta thực sự đưa trí thông minh đa phương thức vào tầm với của đa số người dùng toàn cầu này.

Với hàng trăm ngôn ngữ riêng biệt, mỗi ngôn ngữ mang những sắc thái ngôn ngữ và đặc điểm dữ liệu riêng, việc xây dựng cho Đông Á đòi hỏi nhiều hơn là chỉ dựa trên một mô hình tiếng Anh ban đầu. Xây dựng tương lai của công việc tri thức toàn cầu đòi hỏi một cách tiếp cận xây dựng từ nền tảng về huấn luyện mô hình và chuyên môn thị trường.

Nhìn lại một bước, tất cả chúng ta đã chứng kiến phần lớn các công trình nghiên cứu tiên phong ở châu Á tập trung tại Trung Quốc, đặc biệt là trong lĩnh vực mô hình ngôn ngữ lớn mã nguồn mở và truyền thông tạo sinh. Trong năm qua tại Nhật Bản và Hàn Quốc, chúng ta đang thấy sự xuất hiện của một làn sóng mới các phòng thí nghiệm nghiên cứu. Các nhóm nghiên cứu này không chỉ tập trung vào các biến thể của các mô hình ngôn ngữ lớn nội địa như Upstage và Sakana, mà còn vào các phòng thí nghiệm mới phát triển đa phương thức với mô hình giọng nói và hiểu video, cũng như AI vật lý với trí tuệ robot và mô hình thế giới.

Hôm nay, chúng tôi vui mừng thông báo rằng  @KindredVentures  đã dẫn đầu vòng gọi vốn hạt giống 10 triệu đô la cho Kotoba (@kotoba_tech), cùng với Salesforce @SalesforceVCSony Ventures (@Sony_Innov_Fund). Ngay trong những cuộc trò chuyện đầu tiên với các nhà sáng lập về dữ liệu huấn luyện và kiến trúc mô hình, chúng tôi đã vô cùng ấn tượng bởi các mô hình ASR và TTS chất lượng cao nhất của họ, hoàn hảo cho các pipeline tác nhân khác nhau, cũng như tiến bộ nghiên cứu của họ trên các mô hình biên nhỏ hơn cho suy luận trên thiết bị, và các mô hình dịch thuật thời gian thực từ giọng nói sang giọng nói tiên tiến vượt trội so với các mô hình dịch thuật từ Google, Microsoft và OpenAI.

Được thành lập bởi @noriyuki_kojima (Tiến sĩ, @Cornell@jungokasai (Tiến sĩ, @UW), @kotoba_tech đang xây dựng AI giọng nói cho các ngôn ngữ Đông Á. Trong công việc trước đây, họ là đồng sáng lập của một dự án nghiên cứu ban đầu của chính phủ và trường đại học Nhật Bản có tên là dự án LLM-Fugaku — sáng kiến mô hình ngôn ngữ quy mô lớn của Nhật Bản được xây dựng trên siêu máy tính chỉ dùng CPU Fugaku. Họ đã huấn luyện thành công một LLM tiếng Nhật sử dụng kiến trúc transformer mà không cần bất kỳ GPU nào, chỉ sử dụng CPU. Ngày nay tại Kotoba, dòng mô hình độc quyền Koto mang lại hiệu suất dẫn đầu ngành trên tiếng Nhật, tiếng Hàn và tiếng Trung, hỗ trợ các tác nhân giọng nói AI, thiết bị, thiết bị đeo, robot, cũng như dịch thuật và lý luận giọng nói thời gian thực với độ chính xác và độ trễ mà các thị trường này yêu cầu.

Điều tiếp tục nổi bật về nhóm này là sự kết hợp hiếm có giữa nghiên cứu đẳng cấp thế giới, sự thông thạo văn hóa sâu sắc trên khắp Đông Á, và một sản phẩm đã cho thấy những bước tiến đáng kể. Các mô hình của Kotoba không phải là sự thích ứng của các hệ thống ưu tiên tiếng Anh — chúng được xây dựng có mục đích cho thực tế ngôn ngữ của các thị trường mà chúng phục vụ với một cách tiếp cận huấn luyện độc đáo. Chỉ 6 tháng sau khi phát hành mô hình đầu tiên, các mô hình của họ luôn hoạt động với độ trễ thấp hơn và chất lượng ngữ điệu cao hơn so với các mô hình khác từ các công ty phương Tây. Trong sáu tháng đầu tiên phát hành mô hình riêng tư cho khách hàng, Kotoba hiện đã có một số doanh nghiệp Fortune 100, các công ty phần cứng toàn cầu và các startup AI-native tăng trưởng cao là những khách hàng đầu tiên của mình.

Chúng tôi rất hào hứng hợp tác với @noriyuki_kojima, @jungokasai và toàn bộ nhóm @kotoba_tech khi họ xây dựng một phòng thí nghiệm nghiên cứu tiên phong mới cho Nhật Bản và một nền tảng Voice AI cho toàn bộ châu Á và phần còn lại của thế giới.

Bạn có thể đọc thêm về khoản đầu tư của chúng tôi bên dưới:

https://kindredventures.com/announcement/kotoba-developing-voice-ai-for-a-multilingual-world/

Turn one viral article into a full content workflow

Collect the source, decode the pattern, create assets, draft the story, and distribute from one AI workspace.

Explore YouMind

Thêm pattern để giải mã

Bài viết viral gần đây

Khám phá thêm bài viết viral