Kotoba recauda 10 millones de dólares para IA de voz en tiempo real en Asia Oriental

Para muchos de nosotros en Silicon Valley y centros globales similares, somos muy conscientes de que la voz AI se está convirtiendo rápidamente en la nueva modalidad central de cómo las personas trabajan, se comunican e interactúan con agentes y entre sí. El cambio se vuelve sorprendentemente evidente a medida que los sistemas de agentes se expanden más allá de la programación hacia nuevos sectores del trabajo del conocimiento como Perplexity Computer y Claude Cowork, aplicaciones orientadas al consumidor como Wispr Flow, Sierra y Granola, y hacia encarnaciones de agentes en innumerables automóviles, robots y dispositivos portátiles. Y sin embargo, fuera de nuestras cámaras regionales, muchos de los idiomas más importantes del mundo han sido tratados como una ocurrencia tardía y se ha avanzado poco en la interconexión de estos idiomas y sus hablantes.

Según el recuento actual, Asia alberga ahora a casi 5 mil millones de personas. Solo el Este de Asia representa 1.6 mil millones – el 20% de la población mundial. Aproximadamente la mitad de los trabajadores del conocimiento del mundo hablan un idioma asiático. Un nuevo conjunto de modelos de IA de voz, entrenados específicamente para idiomas asiáticos, nos permitirá alcanzar verdaderamente la inteligencia multimodal al alcance de esta mayoría global.

Con cientos de idiomas distintos, cada uno con sus propios matices lingüísticos y características de datos, construir para el Este de Asia requiere mucho más que basarse en un modelo centrado en el inglés: Construir el futuro de un trabajo del conocimiento global desde el principio exige un enfoque desde cero en el entrenamiento de modelos y la experiencia de mercado.

Retrocediendo un paso, todos hemos estado observando cómo gran parte del trabajo de investigación de frontera en Asia se centra en China, particularmente en modelos de lenguaje grandes de pesos abiertos y medios generativos. En el último año en Japón y Corea, estamos viendo ahora una nueva ola de laboratorios de investigación emergentes. Estos equipos de investigación se centran no solo en variaciones de modelos de lenguaje grandes nacionales como Upstage y Sakana, sino también en nuevos laboratorios que desarrollan multimodalidad con modelos de voz y comprensión de video, y en IA física con inteligencia robótica y modelos del mundo.

Hoy, nos entusiasma anunciar que @KindredVentures lideró una ronda semilla de $10 millones en Kotoba (@kotoba_tech), junto con Salesforce @SalesforceVC y Sony Ventures (@Sony_Innov_Fund). En nuestras primeras conversaciones con los fundadores sobre datos de entrenamiento y arquitectura de modelos, quedamos muy impresionados por sus modelos ASR y TTS de la más alta calidad, perfectos para varios pipelines de agentes, pero también por su progreso en investigación de modelos edge más pequeños para inferencia en el dispositivo, y sus modelos de traducción en tiempo real de voz a voz de frontera que superan a los modelos de traducción de Google, Microsoft y OpenAI.

Fundado por @noriyuki_kojima (PhD, @Cornell y @jungokasai (PhD, @UW), @kotoba_tech está construyendo IA de voz para idiomas del Este de Asia. En su trabajo anterior, fueron cofundadores de un proyecto de investigación temprano del gobierno japonés y universidades llamado proyecto LLM-Fugaku — la iniciativa de modelo de lenguaje a gran escala de Japón construida en la supercomputadora Fugaku solo con CPU. Pudieron entrenar con éxito un LLM japonés usando una arquitectura transformer sin ninguna GPU, solo CPUs. Hoy en Kotoba, la familia de modelos propietarios Koto ofrece rendimiento líder en la industria en japonés, coreano y chino, impulsando agentes de voz AI, dispositivos, wearables, robótica y traducción y razonamiento de voz en tiempo real con la precisión y latencia que estos mercados exigen.

Lo que sigue destacando de este equipo es la rara combinación de investigación de clase mundial, profunda fluidez cultural en todo el Este de Asia, y un producto que ya demuestra una tracción significativa. Los modelos de Kotoba no son adaptaciones de sistemas centrados en el inglés; están diseñados a medida para las realidades lingüísticas de los mercados a los que sirven con un enfoque de entrenamiento único. Tan solo 6 meses después del lanzamiento de su primer modelo, sus modelos consistentemente funcionan con menor latencia y mayor calidad en prosodia que otros modelos de empresas occidentales. En los primeros seis meses de lanzar sus modelos de forma privada a los clientes, Kotoba ya cuenta con varias empresas Fortune 100, compañías globales de hardware y startups nativas de AI de alto crecimiento como sus clientes iniciales.

Estamos encantados de asociarnos con @noriyuki_kojima, @jungokasai y todo el equipo de @kotoba_tech mientras construyen un nuevo laboratorio de investigación de frontera para Japón y una plataforma de Voice AI para el resto de Asia y el mundo.

Puedes leer más sobre nuestra inversión a continuación:

https://kindredventures.com/announcement/kotoba-developing-voice-ai-for-a-multilingual-world/

Desarrollo de IA de voz en tiempo real para un mundo multilingüe

Turn one viral article into a full content workflow

Artículos virales recientes

Deja que colapse: Cómo dirigir lo que viene después

Actualización de tokenomics

Revelado el calendario de lanzamientos del 30.º aniversario de Pokémon TCG

Necesitamos caballeros templarios para el pensamiento de primeros principios

AWS nombra a Anduril proveedor preferente de computación en el borde para la seguridad nacional

27 ajustes para transformar Claude Code en un sistema de agentes autónomos