Pour beaucoup d’entre nous dans la Silicon Valley et autres hubs mondiaux similaires, nous sommes bien conscients que l’IA vocale devient rapidement le nouveau mode central de la façon dont les gens travaillent, communiquent et interagissent avec les agents et entre eux. Ce changement devient frappant à mesure que les systèmes agents dépassent de plus en plus le codage pour pénétrer de nouveaux secteurs du travail cognitif, comme Perplexity Computer et Claude Cowork, des applications grand public telles que Wispr Flow, Sierra et Granola, et des incarnations d’agents dans d’innombrables voitures, robots et appareils portables. Pourtant, en dehors de nos sphères régionales, de nombreuses langues parmi les plus importantes au monde ont été traitées comme une simple considération secondaire, et peu de progrès ont été réalisés sur l’interconnexion de ces langues et de leurs locuteurs.
Selon les décomptes actuels, l’Asie abrite aujourd’hui près de 5 milliards de personnes. L’Asie de l’Est à elle seule représente 1,6 milliard – soit 20 % de la population mondiale. Environ la moitié des travailleurs du savoir dans le monde parlent une langue asiatique. Une nouvelle génération de modèles d’IA vocale, spécifiquement entraînés pour les langues asiatiques, nous permettra d’atteindre véritablement une intelligence multimodale à la portée de cette majorité mondiale.
Avec des centaines de langues distinctes, chacune porteuse de ses propres nuances linguistiques et caractéristiques de données, construire pour l’Asie de l’Est exige bien plus que de partir d’un modèle d’abord conçu pour l’anglais : bâtir l’avenir d’un travail du savoir global impose une approche de fond en comble pour l’entraînement des modèles et l’expertise du marché.
En prenant du recul, nous avons tous observé une grande partie de la recherche de pointe en Asie, centrée en Chine, en particulier dans les modèles de langage de grande taille en open-weight et les médias génératifs. Depuis un an, au Japon et en Corée, une nouvelle vague de laboratoires de recherche émerge. Ces équipes de recherche se concentrent non seulement sur des variantes de modèles de langage locaux comme Upstage et Sakana, mais aussi sur de nouveaux laboratoires développant la multimodalité avec des modèles vocaux et la compréhension vidéo, ainsi que sur l’IA physique avec l’intelligence robotique et les modèles du monde.
Aujourd’hui, nous sommes ravis d’annoncer que @KindredVentures a mené un tour de table de 10 millions de dollars en seed pour Kotoba (@kotoba_tech), aux côtés de Salesforce @SalesforceVC et Sony Ventures (@Sony_Innov_Fund). Dès nos toutes premières conversations avec les fondateurs à propos des données d’entraînement et de l’architecture des modèles, nous avons été très impressionnés par leurs modèles de synthèse vocale et de reconnaissance vocale de la plus haute qualité, parfaits pour diverses pipelines d’agents, mais aussi par leurs progrès en recherche sur des modèles plus petits pour l’inférence embarquée, ainsi que par leurs modèles de traduction vocale en temps réel, qui surpassent les modèles de traduction de Google, Microsoft et OpenAI.
Fondé par @noriyuki_kojima (PhD, @Cornell et @jungokasai (PhD, @UW), @kotoba_tech construit l’IA vocale pour les langues d’Asie de l’Est. Dans leurs travaux antérieurs, ils ont été co-fondateurs d’un projet de recherche gouvernemental et universitaire japonais précoce appelé le projet LLM-Fugaku — l’initiative japonaise de modèle de langage à grande échelle basée sur le supercalculateur CPU-only Fugaku. Ils ont réussi à entraîner un LLM japonais avec une architecture transformer sans aucun GPU, uniquement des CPU. Aujourd’hui, chez Kotoba, la famille de modèles propriétaires Koto offre des performances de premier ordre en japonais, coréen et chinois, alimentant des agents vocaux IA, des appareils, des wearables, la robotique, ainsi que la traduction vocale en temps réel et le raisonnement, avec la précision et la latence exigées par ces marchés.
Ce qui continue de distinguer cette équipe, c’est la rare combinaison d’une recherche de classe mondiale, d’une profonde maîtrise culturelle de l’Asie de l’Est et d’un produit qui démontre déjà une traction significative. Les modèles de Kotoba ne sont pas des adaptations de systèmes conçus en premier pour l’anglais — ils sont construits sur mesure pour les réalités linguistiques des marchés qu’ils servent, avec une approche d’entraînement unique. À peine 6 mois après la sortie de leur premier modèle, leurs modèles atteignent systématiquement des latences plus faibles et une qualité de prosodie supérieure à celle des autres modèles des entreprises occidentales. Au cours des six premiers mois suivant la sortie de leurs modèles en privé auprès des clients, Kotoba compte désormais plusieurs entreprises du Fortune 100, des fabricants de matériel mondiaux et des startups IA natives en forte croissance parmi ses clients initiaux.
Nous sommes ravis de nous associer à @noriyuki_kojima, @jungokasai et toute l’équipe de @kotoba_tech alors qu’ils construisent un nouveau laboratoire de recherche de pointe pour le Japon et une plateforme d’IA vocale pour l’Asie élargie et le reste du monde.
Vous pouvez en savoir plus sur notre investissement ci-dessous :
https://kindredventures.com/announcement/kotoba-developing-voice-ai-for-a-multilingual-world/





