Desarrollo de IA de voz en tiempo real para un mundo multilingüe

@stevejang
INGLÉShace 2 días · 30 jun 2026
1.3M
108
24
5
39

TL;DR

Kindred Ventures lideró una ronda semilla de 10 millones de dólares para Kotoba, un laboratorio de investigación que desarrolla IA de voz en tiempo real y modelos de traducción diseñados específicamente para los mercados de Japón, Corea y China.

Para muchos de nosotros en Silicon Valley y centros globales similares, somos muy conscientes de que la voz AI se está convirtiendo rápidamente en la nueva modalidad central de cómo las personas trabajan, se comunican e interactúan con agentes y entre sí. El cambio se vuelve sorprendentemente evidente a medida que los sistemas de agentes se expanden más allá de la programación hacia nuevos sectores del trabajo del conocimiento como Perplexity Computer y Claude Cowork, aplicaciones orientadas al consumidor como Wispr Flow, Sierra y Granola, y hacia encarnaciones de agentes en innumerables automóviles, robots y dispositivos portátiles. Y sin embargo, fuera de nuestras cámaras regionales, muchos de los idiomas más importantes del mundo han sido tratados como una ocurrencia tardía y se ha avanzado poco en la interconexión de estos idiomas y sus hablantes.

Según el recuento actual, Asia alberga ahora a casi 5 mil millones de personas. Solo el Este de Asia representa 1.6 mil millones – el 20% de la población mundial. Aproximadamente la mitad de los trabajadores del conocimiento del mundo hablan un idioma asiático. Un nuevo conjunto de modelos de IA de voz, entrenados específicamente para idiomas asiáticos, nos permitirá alcanzar verdaderamente la inteligencia multimodal al alcance de esta mayoría global.

Con cientos de idiomas distintos, cada uno con sus propios matices lingüísticos y características de datos, construir para el Este de Asia requiere mucho más que basarse en un modelo centrado en el inglés: Construir el futuro de un trabajo del conocimiento global desde el principio exige un enfoque desde cero en el entrenamiento de modelos y la experiencia de mercado.

Retrocediendo un paso, todos hemos estado observando cómo gran parte del trabajo de investigación de frontera en Asia se centra en China, particularmente en modelos de lenguaje grandes de pesos abiertos y medios generativos. En el último año en Japón y Corea, estamos viendo ahora una nueva ola de laboratorios de investigación emergentes. Estos equipos de investigación se centran no solo en variaciones de modelos de lenguaje grandes nacionales como Upstage y Sakana, sino también en nuevos laboratorios que desarrollan multimodalidad con modelos de voz y comprensión de video, y en IA física con inteligencia robótica y modelos del mundo.

Hoy, nos entusiasma anunciar que @KindredVentures lideró una ronda semilla de $10 millones en Kotoba (@kotoba_tech), junto con Salesforce @SalesforceVC y Sony Ventures (@Sony_Innov_Fund). En nuestras primeras conversaciones con los fundadores sobre datos de entrenamiento y arquitectura de modelos, quedamos muy impresionados por sus modelos ASR y TTS de la más alta calidad, perfectos para varios pipelines de agentes, pero también por su progreso en investigación de modelos edge más pequeños para inferencia en el dispositivo, y sus modelos de traducción en tiempo real de voz a voz de frontera que superan a los modelos de traducción de Google, Microsoft y OpenAI.

Fundado por @noriyuki_kojima (PhD, @Cornell y @jungokasai (PhD, @UW), @kotoba_tech está construyendo IA de voz para idiomas del Este de Asia. En su trabajo anterior, fueron cofundadores de un proyecto de investigación temprano del gobierno japonés y universidades llamado proyecto LLM-Fugaku — la iniciativa de modelo de lenguaje a gran escala de Japón construida en la supercomputadora Fugaku solo con CPU. Pudieron entrenar con éxito un LLM japonés usando una arquitectura transformer sin ninguna GPU, solo CPUs. Hoy en Kotoba, la familia de modelos propietarios Koto ofrece rendimiento líder en la industria en japonés, coreano y chino, impulsando agentes de voz AI, dispositivos, wearables, robótica y traducción y razonamiento de voz en tiempo real con la precisión y latencia que estos mercados exigen.

Lo que sigue destacando de este equipo es la rara combinación de investigación de clase mundial, profunda fluidez cultural en todo el Este de Asia, y un producto que ya demuestra una tracción significativa. Los modelos de Kotoba no son adaptaciones de sistemas centrados en el inglés; están diseñados a medida para las realidades lingüísticas de los mercados a los que sirven con un enfoque de entrenamiento único. Tan solo 6 meses después del lanzamiento de su primer modelo, sus modelos consistentemente funcionan con menor latencia y mayor calidad en prosodia que otros modelos de empresas occidentales. En los primeros seis meses de lanzar sus modelos de forma privada a los clientes, Kotoba ya cuenta con varias empresas Fortune 100, compañías globales de hardware y startups nativas de AI de alto crecimiento como sus clientes iniciales.

Estamos encantados de asociarnos con @noriyuki_kojima, @jungokasai y todo el equipo de @kotoba_tech mientras construyen un nuevo laboratorio de investigación de frontera para Japón y una plataforma de Voice AI para el resto de Asia y el mundo.

Puedes leer más sobre nuestra inversión a continuación:

https://kindredventures.com/announcement/kotoba-developing-voice-ai-for-a-multilingual-world/

Turn one viral article into a full content workflow

Collect the source, decode the pattern, create assets, draft the story, and distribute from one AI workspace.

Explore YouMind

Más patrones por descifrar

Artículos virales recientes

Explorar más artículos virales