為多語言世界開發即時語音 AI

@stevejang
英語2 天前 · 2026年6月30日
1.3M
108
24
5
39

TL;DR

Kindred Ventures 領投了 Kotoba 的 1,000 萬美元種子輪融資。Kotoba 是一家研究實驗室,致力於開發專為日語、韓語和中文市場打造的即時語音 AI 與翻譯模型。

在矽谷及全球類似的科技樞紐中,我們許多人都清楚意識到,語音 AI 正快速成為人們工作、溝通,以及與 Agent 和彼此互動的全新核心模式。隨著 Agent 系統持續超越純程式開發,進入知識工作的新領域——例如 Perplexity Computer、Claude Cowork,以及 Wispr Flow、Sierra、Granola 等消費端應用,並進一步嵌入到各類汽車、機器人與穿戴式裝置中,這個轉變變得格外明顯。然而,在我們這些區域的圈子之外,世界上許多重要語言卻被視為次要考量,這些語言及其使用者之間的連結也幾乎沒有進展。

根據目前統計,亞洲擁有近 50 億人口。光是東亞就佔了 16 億,相當於全球人口的 20%。全球大約有一半的知識工作者使用亞洲語言。一套專為亞洲語言訓練的全新語音 AI 模型,將使我們能夠真正實現多模態智慧,觸及這個全球多數群體。

東亞擁有數百種不同的語言,每種語言都有其獨特的語言特徵和數據特性。要為東亞市場打造產品,遠非僅僅在英語優先的模型上進行調整即可:要建立一個全球優先的知識工作未來,就必須從根本出發,進行模型訓練並累積市場專業知識。

回顧一下,我們都看到亞洲前沿研究工作的重心集中在中國,特別是在開源權重大語言模型與生成式媒體領域。在過去的一年裡,日本和韓國也湧現了一批新的研究實驗室。這些研究團隊不僅專注於開發本土大型語言模型(如 Upstage 和 Sakana)的各種變體,同時也投入於開發結合語音模型與影片理解的多模態技術,以及結合機器人智慧與世界模型的實體 AI。

今天,我們很興奮地宣布,[@KindredVentures](https://x.com/@KindredVentures) 領投了 Kotoba ([@kotoba_tech](https://x.com/@kotoba_tech)) 的 1000 萬美元種子輪融資,Salesforce ([@SalesforceVC](https://x.com/@SalesforceVC)) 與 Sony Ventures** (@Sony_Innov_Fund) 也參與其中。在我們與創辦人關於訓練數據與模型架構的初次對話中,他們最高品質的 ASR 與 TTS 模型(非常適合各種 Agent 流程)、在小型邊緣設備推論模型上的研究進展,以及其前沿的語音對語音即時翻譯模型(表現優於 Google、Microsoft 和 OpenAI)都令我們印象極為深刻。

@noriyuki_kojima (康乃爾大學博士)與 @jungokasai (華盛頓大學博士)共同創立的 @kotoba_tech,正致力於打造適用於東亞語言的語音 AI。在他們先前的經歷中,曾共同創立一個名為 LLM-Fugaku 的早期日本政府與大學聯合研究計畫——這是一項建立在 Fugaku(僅使用 CPU 的超級電腦)上的日本大規模語言模型計畫。他們成功地僅使用 CPU,在無 GPU 的情況下,以 Transformer 架構訓練出一個日語 LLM。如今在 Kotoba,其專有的 Koto 模型系列在日語、韓語和中文方面展現出業界領先的性能,為 AI 語音 Agent、裝置、穿戴式設備、機器人技術,以及即時語音翻譯與推理提供動力,完全符合這些市場對準確性與延遲的要求。

這個團隊最與眾不同的地方,在於他們罕見地結合了世界級的研究實力、對東亞文化的深刻理解,以及一個已展現顯著動能的產品。Kotoba 的模型並非英語優先系統的改編版——它們是根據其服務市場的語言現實,採用獨特的訓練方法從頭打造而成。在其首個模型發布後的短短 6 個月內,他們的模型在韻律表現上,持續展現出比西方公司模型更低的延遲與更高的品質。 在對客戶私下發布模型的前六個月,Kotoba 已將多家財富 100 強企業、全球硬體公司,以及高成長的 AI 原生新創公司納為其初始客戶。

我們非常高興能與 @noriyuki_kojima@jungokasai 以及整個 @kotoba_tech 團隊合作,一同為日本打造一個新的前沿研究實驗室,也為更廣泛的亞洲及世界其他地區建立一個語音 AI 平台。

您可以透過以下連結閱讀更多關於我們投資的資訊:

https://kindredventures.com/announcement/kotoba-developing-voice-ai-for-a-multilingual-world/

使用 YouMind 創作爆款文章

收集素材、拆解爆點、生成視覺資產、撰寫內容,並在一個 AI 工作空間裡完成分發。

了解 YouMind

更多可拆解樣本

近期爆款文章

探索更多爆款文章