Für viele von uns im Silicon Valley und ähnlichen globalen Hubs ist es offensichtlich, dass Sprach-KI schnell zur neuen Kernmodalität wird, wie Menschen arbeiten, kommunizieren und mit Agenten sowie miteinander interagieren. Der Wandel wird besonders deutlich, wenn Agentensysteme zunehmend über das Programmieren hinaus in neue Bereiche der Wissensarbeit vordringen – wie Perplexity Computer und Claude Cowork, verbraucherorientierte Anwendungen wie Wispr Flow, Sierra und Granola – sowie in Verkörperungen von Agenten in unzähligen Autos, Robotern und Wearables. Doch außerhalb unserer regionalen Blasen wurden viele der wichtigsten Sprachen der Welt als nebensächlich behandelt, und es wurden kaum Fortschritte bei der Vernetzung dieser Sprachen und ihrer Sprecher erzielt.
Nach aktuellen Schätzungen leben in Asien fast 5 Milliarden Menschen. Allein Ostasien macht 1,6 Milliarden aus – 20 % der Weltbevölkerung. Etwa die Hälfte der Wissensarbeiter weltweit spricht eine asiatische Sprache. Eine neue Generation von Sprach-KI-Modellen, die speziell für asiatische Sprachen trainiert wurden, wird es uns ermöglichen, multimodale Intelligenz wirklich für diese globale Mehrheit zugänglich zu machen.
Mit Hunderten verschiedener Sprachen, die jeweils ihre eigenen sprachlichen Nuancen und Datencharakteristiken mitbringen, erfordert der Aufbau für Ostasien weit mehr, als auf einem Englisch-zuerst-Modell aufzubauen: Die Zukunft einer global ausgerichteten Wissensarbeit zu gestalten, erfordert einen grundlegenden Ansatz beim Modelltraining und bei der Marktexpertise.
Wenn wir einen Schritt zurücktreten, haben wir alle beobachtet, wie sich ein Großteil der Spitzenforschung in Asien auf China konzentriert, insbesondere bei Open-Weight Large Language Models und generativen Medien. Im letzten Jahr entstehen in Japan und Korea nun neue Forschungslabore. Diese Forschungsteams konzentrieren sich nicht nur auf Variationen einheimischer Large Language Models wie Upstage und Sakana, sondern auch auf neue Labore, die Multimodalität mit Sprachmodellen und Videoverständnis entwickeln, sowie auf physische KI mit robotischer Intelligenz und Weltmodellen.
Heute freuen wir uns, bekannt zu geben, dass @KindredVentures eine Seed-Finanzierungsrunde in Höhe von 10 Millionen US-Dollar für Kotoba (@kotoba_tech) angeführt hat, gemeinsam mit Salesforce @SalesforceVC und Sony Ventures (@Sony_Innov_Fund). In unseren allerersten Gesprächen mit den Gründern über Trainingsdaten und Modellarchitektur waren wir äußerst beeindruckt von ihren hochwertigsten ASR- und TTS-Modellen, die perfekt für verschiedene Agenten-Pipelines geeignet sind, aber auch von ihren Forschungsfortschritten bei kleineren Edge-Modellen für die Inferenz auf dem Gerät und ihren bahnbrechenden Echtzeit-Sprach-zu-Sprach-Übersetzungsmodellen, die Übersetzungsmodelle von Google, Microsoft und OpenAI übertreffen.
Gegründet von @noriyuki_kojima (PhD, @Cornell) und @jungokasai (PhD, @UW), entwickelt @kotoba_tech Sprach-KI für ostasiatische Sprachen. In ihrer vorherigen Arbeit waren sie Mitbegründer eines frühen japanischen Regierungs- und Universitätsforschungsprojekts namens LLM-Fugaku-Projekt – Japans groß angelegte Initiative für Sprachmodelle, die auf dem CPU-only-Supercomputer Fugaku aufbaute. Sie konnten erfolgreich ein japanisches LLM mit einer Transformer-Architektur trainieren, ohne GPUs, nur mit CPUs. Heute liefert bei Kotoba die proprietäre Koto-Modellfamilie branchenführende Leistung in Japanisch, Koreanisch und Chinesisch und treibt KI-Sprachagenten, Geräte, Wearables, Robotik sowie Echtzeit-Sprachübersetzung und -logik mit der Genauigkeit und Latenz an, die diese Märkte fordern.
Was an diesem Team weiterhin heraussticht, ist die seltene Kombination aus erstklassiger Forschung, tiefem kulturellem Verständnis für Ostasien und einem Produkt, das bereits eine bedeutende Marktdynamik zeigt. Kotobas Modelle sind keine Anpassungen von Englisch-zuerst-Systemen – sie sind mit einem einzigartigen Trainingsansatz speziell für die sprachlichen Realitäten der Märkte entwickelt, die sie bedienen. Nur 6 Monate nach der Veröffentlichung ihres ersten Modells erzielen ihre Modelle durchweg niedrigere Latenzen und eine höhere Prosodie-Qualität als andere Modelle westlicher Unternehmen. In den ersten sechs Monaten, in denen sie ihre Modelle privat an Kunden auslieferten, zählt Kotoba bereits mehrere Fortune-100-Unternehmen, globale Hardware-Firmen und wachstumsstarke KI-native Startups zu seinen ersten Kunden.
Wir freuen uns sehr, mit @noriyuki_kojima, @jungokasai und dem gesamten @kotoba_tech-Team zusammenzuarbeiten, während sie ein neues Spitzenforschungslabor für Japan und eine Sprach-KI-Plattform für das weitere Asien und den Rest der Welt aufbauen.
Weitere Informationen zu unserer Investition finden Sie unten:
https://kindredventures.com/announcement/kotoba-developing-voice-ai-for-a-multilingual-world/





