对于许多身处硅谷及类似全球枢纽的人来说,我们都深知语音 AI 正迅速成为人们工作、沟通以及与人或 Agent 互动的新核心方式。随着 Agent 系统越来越多地超越编码,进入知识工作的新领域——如 Perplexity Computer 和 Claude Cowork,面向消费者的应用——如 Wispr Flow、Sierra 和 Granola,以及无数汽车、机器人和可穿戴设备中的 Agent 化身——这一转变变得尤为明显。然而,在我们所在的区域之外,世界上许多最重要的语言却一直被当作事后考虑,这些语言及其使用者之间的互联互通的进展甚微。
根据目前的统计,亚洲拥有近 50 亿人口。仅东亚就占全球人口的 16 亿——20%。全球大约一半的知识工作者使用亚洲语言。一系列专门针对亚洲语言训练的新语音 AI 模型,将使我们能够真正实现多模态智能,惠及这一全球多数群体。
由于存在数百种不同的语言,每种语言都有其独特的语言细微差别和数据特征,为东亚构建方案远不止是在以英语为先的模型基础上进行修改:构建以全球为先的知识工作的未来,需要从零开始进行模型训练和积累市场专业知识。
退一步看,我们一直关注亚洲的前沿研究工作,其中大部分集中在中国,尤其是在开放权重的大型语言模型和生成式媒体领域。过去一年,在日本和韩国,我们看到新一波研究实验室正在涌现。这些研究团队不仅专注于本土大型语言模型的变体(如 Upstage 和 Sakana),还致力于开发结合语音模型和视频理解的多模态能力,以及涉及机器人智能和世界模型的物理 AI。
今天,我们激动地宣布,@KindredVentures 领投了 Kotoba (@kotoba_tech) 的 1000 万美元种子轮融资,Salesforce @SalesforceVC 和 Sony Ventures (@Sony_Innov_Fund) 跟投。在与创始人的最初几次关于训练数据和模型架构的交谈中,我们对其高质量的 ASR 和 TTS 模型印象深刻——这些模型非常适合各种 Agent 管道——同时,他们在用于设备端推理的小型边缘模型上的研究进展,以及他们在实时语音到语音翻译方面超越 Google、Microsoft 和 OpenAI 的前沿模型,也令我们赞叹不已。
由 @noriyuki_kojima(博士,康奈尔大学)和 @jungokasai(博士,华盛顿大学)共同创立的 @kotoba_tech 正在为东亚语言构建语音 AI。他们此前曾是日本早期政府与大学合作研究项目——LLM-Fugaku 项目的联合创始人。该项目是建立在仅使用 CPU 的 Fugaku 超级计算机上的日本大规模语言模型计划。他们成功使用 transformer 架构,在没有 GPU、仅使用 CPU 的情况下训练出了一个日语 LLM。如今在 Kotoba,Koto 专有模型系列在日语、韩语和中文方面提供了行业领先的性能,为 AI 语音 Agent、设备、可穿戴设备、机器人以及实时语音翻译和推理提供支持,并达到了这些市场所需的准确性和延迟要求。
这个团队最令人印象深刻的是,他们罕见地结合了世界级的研究水平、深厚的东亚文化理解,以及已经展现出显著增长势头的产品。Kotoba 的模型并非对以英语为先的系统的简单改编——它们是根据所服务市场的语言现实,采用独特的训练方法专门构建的。在发布第一个模型仅 6 个月后,他们的模型在韵律方面始终以更低的延迟和更高的质量优于西方公司的其他模型。在私下向客户发布模型的前六个月里,Kotoba 已经将数家财富 100 强企业、全球硬件公司以及高增长的 AI 原生初创公司纳为首批客户。
我们非常兴奋能与 @noriyuki_kojima、@jungokasai 以及整个 @kotoba_tech 团队合作,共同为日本打造一个前沿研究实验室,并为更广泛的亚洲及世界其他地区(RoW)构建语音 AI 平台。
您可以点击下方链接了解更多关于我们投资的信息:
https://kindredventures.com/announcement/kotoba-developing-voice-ai-for-a-multilingual-world/





