Para muchos de nosotros en Silicon Valley y centros globales similares, somos muy conscientes de que la voz AI se está convirtiendo rápidamente en la nueva modalidad central de cómo las personas trabajan, se comunican e interactúan con agentes y entre sí. El cambio se vuelve sorprendentemente evidente a medida que los sistemas de agentes avanzan cada vez más más allá de la codificación hacia nuevos sectores del trabajo del conocimiento, como Perplexity Computer y Claude Cowork, aplicaciones orientadas al consumidor como Wispr Flow, Sierra y Granola, y hacia encarnaciones de agentes en innumerables automóviles, robots y dispositivos portátiles. Y sin embargo, fuera de nuestras regiones, muchos de los idiomas más importantes del mundo han sido tratados como una ocurrencia tardía y se ha avanzado poco en la interconexión de estos idiomas y sus hablantes.
Según los recuentos actuales, Asia alberga ahora a casi 5 mil millones de personas. Solo el Este de Asia representa 1.6 mil millones, el 20% de la población mundial. Aproximadamente la mitad de los trabajadores del conocimiento del mundo hablan un idioma asiático. Un nuevo conjunto de modelos de voz AI, entrenados específicamente para idiomas asiáticos, nos permitirá lograr verdaderamente una inteligencia multimodal al alcance de esta mayoría global.
Con cientos de idiomas distintos, cada uno con sus propios matices lingüísticos y características de datos, construir para el Este de Asia requiere mucho más que basarse en un modelo centrado en el inglés: construir el futuro de un trabajo del conocimiento global primero exige un enfoque desde cero en el entrenamiento de modelos y la experiencia en el mercado.
Dando un paso atrás, todos hemos estado observando cómo gran parte de la investigación de frontera en Asia se centra en China, particularmente en modelos de lenguaje grandes de pesos abiertos y medios generativos. En el último año en Japón y Corea, ahora estamos viendo una nueva ola de laboratorios de investigación emergentes. Estos equipos de investigación se centran no solo en variaciones de modelos de lenguaje grandes locales como Upstage y Sakana, sino también en nuevos laboratorios que desarrollan multimodalidad con modelos de voz y comprensión de video, y en AI física con inteligencia robótica y modelos del mundo.
Hoy, nos complace anunciar que @KindredVentures lideró una ronda semilla de $10 millones en Kotoba (@kotoba_tech), junto con Salesforce @SalesforceVC y Sony Ventures (@Sony_Innov_Fund). En nuestras primeras conversaciones con los fundadores sobre datos de entrenamiento y arquitectura de modelos, quedamos muy impresionados por sus modelos ASR y TTS de la más alta calidad, perfectos para varios pipelines de agentes, pero también por su progreso en investigación en modelos de borde más pequeños para inferencia en el dispositivo, y sus modelos de traducción de voz a voz en tiempo real de frontera que superan a los modelos de traducción de Google, Microsoft y OpenAI.
Fundada por @noriyuki_kojima (PhD, @Cornell y @jungokasai (PhD, @UW), @kotoba_tech está construyendo voz AI para idiomas del Este de Asia. En su trabajo anterior, fueron cofundadores de un proyecto de investigación temprano del gobierno y la universidad japonesa llamado proyecto LLM-Fugaku, la iniciativa de modelo de lenguaje a gran escala de Japón construida en la supercomputadora Fugaku solo con CPU. Pudieron entrenar con éxito un LLM japonés usando una arquitectura transformer sin ninguna GPU, solo con CPU. Hoy en Kotoba, la familia de modelos propietarios Koto ofrece rendimiento líder en la industria en japonés, coreano y chino, impulsando agentes de voz AI, dispositivos, wearables, robótica y traducción y razonamiento de voz en tiempo real con la precisión y latencia que estos mercados exigen.
Lo que sigue destacando de este equipo es la rara combinación de investigación de clase mundial, profunda fluidez cultural en todo el Este de Asia y un producto que ya demuestra una tracción significativa. Los modelos de Kotoba no son adaptaciones de sistemas centrados en el inglés; están construidos específicamente para las realidades lingüísticas de los mercados a los que sirven con un enfoque de entrenamiento único. Solo 6 meses después del lanzamiento de su primer modelo, sus modelos consistentemente funcionan con latencias más bajas y mayor calidad en la prosodia que otros modelos de empresas occidentales. En los primeros seis meses de lanzar sus modelos de forma privada a los clientes, Kotoba ahora cuenta con varias empresas Fortune 100, compañías globales de hardware y startups nativas de AI de alto crecimiento como sus clientes iniciales.
Estamos encantados de asociarnos con @noriyuki_kojima, @jungokasai y todo el equipo de @kotoba_tech mientras construyen un nuevo laboratorio de investigación de frontera para Japón y una plataforma de voz AI para el resto de Asia y el mundo.
Puedes leer más sobre nuestra inversión a continuación:
https://kindredventures.com/announcement/kotoba-developing-voice-ai-for-a-multilingual-world/





