Para muitos de nós no Vale do Silício e em outros hubs globais semelhantes, sabemos bem que a IA de voz está se tornando rapidamente a nova modalidade central de como as pessoas trabalham, se comunicam e interagem com agentes e entre si. Essa mudança se torna notavelmente evidente à medida que os sistemas de agentes transcendem cada vez mais a codificação, adentrando novos setores do trabalho do conhecimento, como Perplexity Computer e Claude Cowork, aplicações voltadas ao consumidor, como Wispr Flow, Sierra e Granola, e encarnações de agentes em inúmeros carros, robôs e dispositivos vestíveis. No entanto, fora das nossas bolhas regionais, muitos dos idiomas mais importantes do mundo têm sido tratados como uma reflexão tardia, e pouco progresso foi feito na interconexão dessas línguas e de seus falantes.
De acordo com as estimativas atuais, a Ásia abriga agora quase 5 bilhões de pessoas. Somente o Leste Asiático representa 1,6 bilhão – 20% da população global. Aproximadamente metade dos trabalhadores do conhecimento do mundo fala um idioma asiático. Um novo conjunto de modelos de IA de fala, treinados especificamente para línguas asiáticas, nos permitirá alcançar verdadeiramente a inteligência multimodal ao alcance dessa maioria global.
Com centenas de idiomas distintos, cada um com suas próprias nuances linguísticas e características de dados, criar soluções para o Leste Asiático exige muito mais do que simplesmente adaptar um modelo desenvolvido prioritariamente para o inglês: construir o futuro de um trabalho do conhecimento verdadeiramente global demanda uma abordagem de treinamento de modelos e conhecimento de mercado construída desde a base.
Recuando um pouco, todos temos acompanhado grande parte do trabalho de pesquisa de fronteira na Ásia, centrado na China, especialmente em modelos de linguagem de grande escala com pesos abertos e mídia generativa. No último ano, no Japão e na Coreia, estamos vendo o surgimento de uma nova onda de laboratórios de pesquisa. Essas equipes de pesquisa estão focadas não apenas em variações de modelos de linguagem locais, como Upstage e Sakana, mas também em novos laboratórios que desenvolvem multimodalidade com modelos de fala e compreensão de vídeo, e em IA física com inteligência robótica e modelos de mundo.
Hoje, estamos animados em anunciar que a @KindredVentures liderou uma rodada seed de US$ 10 milhões na Kotoba (@kotoba_tech), com a participação da Salesforce @SalesforceVC e da Sony Ventures (@Sony_Innov_Fund). Em nossas primeiras conversas com os fundadores sobre dados de treinamento e arquitetura de modelos, ficamos extremamente impressionados não só com seus modelos ASR e TTS da mais alta qualidade, perfeitos para diversos pipelines de agentes, mas também com seu progresso em pesquisa de modelos de borda menores para inferência em dispositivos, e seus modelos de fronteira de tradução fala-para-fala em tempo real, que superam os modelos de tradução do Google, Microsoft e OpenAI.
Fundada por @noriyuki_kojima (PhD, @Cornell e @jungokasai (PhD, @UW), a @kotoba_tech está construindo IA de fala para línguas do Leste Asiático. Em seu trabalho anterior, eles foram cofundadores de um dos primeiros projetos de pesquisa do governo e universidades japonesas, chamado projeto LLM-Fugaku — a iniciativa de modelo de linguagem em larga escala do Japão, construída no supercomputador Fugaku, baseado apenas em CPUs. Eles conseguiram treinar com sucesso um LLM japonês usando uma arquitetura transformer sem nenhuma GPU, apenas CPUs. Hoje, na Kotoba, a família de modelos proprietários Koto oferece desempenho líder do setor em japonês, coreano e chinês, alimentando agentes de voz de IA, dispositivos, wearables, robótica e tradução e raciocínio de fala em tempo real com a precisão e latência que esses mercados exigem.
O que continua a se destacar nesta equipe é a rara combinação de pesquisa de classe mundial, profunda fluência cultural em todo o Leste Asiático e um produto que já demonstra uma tração significativa. Os modelos da Kotoba não são adaptações de sistemas feitos primeiro para o inglês — eles são construídos de forma proposital para as realidades linguísticas dos mercados que atendem, com uma abordagem de treinamento única. Apenas 6 meses após o lançamento de seu primeiro modelo, seus modelos consistentemente operam com latências mais baixas e qualidade de prosódia superior em comparação com outros modelos de empresas ocidentais. Nos primeiros seis meses de liberação de seus modelos para clientes privados, a Kotoba já conta com várias empresas Fortune 100, empresas globais de hardware e startups nativas de IA de alto crescimento como seus clientes iniciais.
Estamos entusiasmados em fazer parceria com @noriyuki_kojima, @jungokasai e toda a equipe da @kotoba_tech enquanto eles constroem um novo laboratório de pesquisa de fronteira para o Japão e uma plataforma de IA de Voz para a Ásia em geral e o resto do mundo.
Você pode ler mais sobre nosso investimento abaixo:
https://kindredventures.com/announcement/kotoba-developing-voice-ai-for-a-multilingual-world/





