Para muitos de nós no Vale do Silício e em hubs globais similares, sabemos bem que a IA de voz está rapidamente se tornando a nova modalidade central de como as pessoas trabalham, se comunicam e interagem com agentes e entre si. Essa mudança se torna impressionantemente evidente à medida que os sistemas de agentes avançam além da programação para novos setores do trabalho do conhecimento, como Perplexity Computer e Claude Cowork, aplicações voltadas ao consumidor, como Wispr Flow, Sierra e Granola, e em incorporações de agentes em inúmeros carros, robôs e wearables. E ainda assim, fora de nossas câmaras regionais, muitos dos idiomas mais importantes do mundo têm sido tratados como algo secundário, e pouco progresso foi feito na interconexão dessas línguas e de seus falantes.
De acordo com as contagens atuais, a Ásia abriga agora quase 5 bilhões de pessoas. Somente o Leste Asiático representa 1,6 bilhão – 20% da população global. Aproximadamente metade dos trabalhadores do conhecimento do mundo fala um idioma asiático. Um novo conjunto de modelos de IA de fala, treinados especificamente para línguas asiáticas, nos permitirá alcançar verdadeiramente a inteligência multimodal ao alcance dessa maioria global.
Com centenas de idiomas distintos, cada um carregando suas próprias nuances linguísticas e características de dados, construir para o Leste Asiático exige muito mais do que construir a partir de um modelo focado primeiro no inglês: construir o futuro de um trabalho do conhecimento globalizado exige uma abordagem do zero para o treinamento de modelos e expertise de mercado.
Dando um passo atrás, todos nós temos observado grande parte do trabalho de pesquisa de fronteira na Ásia se concentrando na China, particularmente em modelos de linguagem de grande escala com pesos abertos e mídia generativa. No último ano, no Japão e na Coreia, estamos vendo agora uma nova onda de laboratórios de pesquisa surgindo. Essas equipes de pesquisa focam não apenas em variações de modelos de linguagem de grande escala nacionais como Upstage e Sakana, mas também em novos laboratórios desenvolvendo multimodalidade com modelos de fala e compreensão de vídeo, e em IA física com inteligência robótica e modelos de mundo.
Hoje, estamos animados em anunciar que a @KindredVentures liderou uma rodada seed de $10 milhões na Kotoba (@kotoba_tech), juntamente com a Salesforce @SalesforceVC e a Sony Ventures (@Sony_Innov_Fund). Em nossas primeiras conversas com os fundadores sobre dados de treinamento e arquitetura de modelo, ficamos super impressionados com seus modelos ASR e TTS da mais alta qualidade, que são perfeitos para vários pipelines de agentes, mas também com seu progresso em pesquisa em modelos de borda menores para inferência no dispositivo, e seus modelos de fronteira de tradução em tempo real fala-para-fala, que superam os modelos de tradução do Google, Microsoft e OpenAI.
Fundada por @noriyuki_kojima (PhD, @Cornell) e @jungokasai (PhD, @UW), a @kotoba_tech está construindo IA de fala para línguas do Leste Asiático. Em seu trabalho anterior, eles foram cofundadores de um projeto inicial de pesquisa do governo e universidade japonesa chamado projeto LLM-Fugaku — a iniciativa de modelo de linguagem de grande escala do Japão construída no supercomputador Fugaku, baseado apenas em CPUs. Eles conseguiram treinar um LLM japonês com sucesso usando uma arquitetura transformer sem nenhuma GPU, apenas CPUs. Hoje, na Kotoba, a família de modelos proprietários Koto oferece desempenho líder do setor em japonês, coreano e chinês, alimentando agentes de voz de IA, dispositivos, wearables, robótica e tradução e raciocínio de fala em tempo real com a precisão e latência que esses mercados exigem.
O que continua a se destacar nessa equipe é a rara combinação de pesquisa de classe mundial, profunda fluência cultural em todo o Leste Asiático e um produto que já demonstra tração significativa. Os modelos da Kotoba não são adaptações de sistemas focados primeiro no inglês — eles são construídos sob medida para as realidades linguísticas dos mercados que atendem, com uma abordagem de treinamento única. Apenas 6 meses após o lançamento de seu primeiro modelo, seus modelos consistentemente apresentam latências mais baixas e maior qualidade de prosódia do que outros modelos de empresas ocidentais. Nos primeiros seis meses lançando seus modelos privadamente para clientes, a Kotoba agora conta com várias empresas Fortune 100, empresas globais de hardware e startups nativas de IA de alto crescimento como seus clientes iniciais.
Estamos emocionados em fazer parceria com @noriyuki_kojima, @jungokasai e toda a equipe @kotoba_tech enquanto eles constroem um novo laboratório de pesquisa de fronteira para o Japão e uma plataforma de IA de Voz para a Ásia em geral e o resto do mundo.
Você pode ler mais sobre nosso investimento abaixo:
https://kindredventures.com/announcement/kotoba-developing-voice-ai-for-a-multilingual-world/





