Sviluppare un'IA vocale in tempo reale per un mondo multilingue

@stevejang
INGLESE2 giorni fa · 30 giu 2026
1.3M
108
24
5
39

TL;DR

Kindred Ventures ha guidato un round seed da 10 milioni di dollari per Kotoba, un laboratorio di ricerca che sviluppa modelli di IA vocale e traduzione in tempo reale appositamente progettati per i mercati giapponese, coreano e cinese.

Per molti di noi nella Silicon Valley e in altri hub globali simili, siamo ben consapevoli che la voce AI sta rapidamente diventando la nuova modalità centrale con cui le persone lavorano, comunicano e interagiscono con agenti e tra di loro. Il cambiamento diventa sorprendentemente evidente man mano che i sistemi di agenti si spostano sempre più oltre la programmazione verso nuovi settori del lavoro di conoscenza come Perplexity Computer e Claude Cowork, applicazioni consumer come Wispr Flow, Sierra e Granola, e verso incarnazioni di agenti in innumerevoli auto, robot e dispositivi indossabili. Eppure, al di fuori delle nostre camere regionali, molte delle lingue più importanti del mondo sono state trattate come un ripensamento e si sono fatti pochi progressi sull'interconnessione di queste lingue e dei loro parlanti.

Secondo le stime attuali, l'Asia ospita ora quasi 5 miliardi di persone. La sola Asia orientale rappresenta 1,6 miliardi – il 20% della popolazione globale. Circa la metà dei lavoratori della conoscenza nel mondo parla una lingua asiatica. Un nuovo insieme di modelli di parlato AI, addestrati specificamente per le lingue asiatiche, ci permetterà di raggiungere veramente l'intelligenza multimodale alla portata di questa maggioranza globale.

Con centinaia di lingue distinte, ciascuna con le proprie sfumature linguistiche e caratteristiche dei dati, costruire per l'Asia orientale richiede molto più che sviluppare a partire da un modello incentrato sull'inglese: costruire il futuro di un lavoro di conoscenza globale richiede un approccio dal basso verso l'alto per l'addestramento dei modelli e la competenza di mercato.

Facendo un passo indietro, abbiamo tutti osservato come gran parte del lavoro di ricerca all'avanguardia in Asia si concentri in Cina, in particolare nei modelli linguistici di grandi dimensioni a pesi aperti e nei media generativi. Nell'ultimo anno in Giappone e Corea, stiamo ora assistendo all'emergere di una nuova ondata di laboratori di ricerca. Questi team di ricerca si concentrano non solo su varianti di modelli linguistici di grandi dimensioni locali come Upstage e Sakana, ma anche su nuovi laboratori che sviluppano la multimodalità con modelli vocali e comprensione video, e sull'AI fisica con intelligenza robotica e modelli del mondo.

Oggi siamo entusiasti di annunciare che @KindredVentures ha guidato un round seed da 10 milioni di dollari in Kotoba (@kotoba_tech), insieme a Salesforce @SalesforceVC e Sony Ventures (@Sony_Innov_Fund). Nelle nostre primissime conversazioni con i fondatori riguardo ai dati di addestramento e all'architettura del modello, siamo rimasti estremamente colpiti dai loro modelli ASR e TTS di altissima qualità, perfetti per varie pipeline di agenti, ma anche dai loro progressi nella ricerca su modelli edge più piccoli per l'inferenza su dispositivo, e dai loro modelli di traduzione in tempo reale da parlato a parlato all'avanguardia, che superano i modelli di traduzione di Google, Microsoft e OpenAI.

Fondata da @noriyuki_kojima (PhD, @Cornell e @jungokasai (PhD, @UW), @kotoba_tech sta costruendo AI vocale per le lingue dell'Asia orientale. Nel loro lavoro precedente, sono stati co-fondatori di un primo progetto di ricerca governativo e universitario giapponese chiamato progetto LLM-Fugaku — l'iniziativa giapponese per modelli linguistici su larga scala basata sul supercomputer Fugaku solo CPU. Sono riusciti ad addestrare con successo un LLM giapponese utilizzando un'architettura transformer senza alcuna GPU, solo CPU. Oggi in Kotoba, la famiglia di modelli proprietari Koto offre prestazioni leader del settore in giapponese, coreano e cinese, alimentando agenti vocali AI, dispositivi, indossabili, robotica e traduzione vocale in tempo reale e ragionamento con la precisione e la latenza richieste da questi mercati.

Ciò che continua a distinguere questo team è la rara combinazione di ricerca di livello mondiale, profonda competenza culturale in tutta l'Asia orientale e un prodotto che dimostra già una trazione significativa. I modelli di Kotoba non sono adattamenti di sistemi incentrati sull'inglese: sono costruiti appositamente per le realtà linguistiche dei mercati che servono con un approccio di addestramento unico. Solo 6 mesi dopo il rilascio del loro primo modello, i loro modelli funzionano costantemente con latenze inferiori e maggiore qualità nella prosodia rispetto ad altri modelli di aziende occidentali. Nei primi sei mesi di rilascio dei loro modelli privatamente ai clienti, Kotoba conta ora diverse aziende Fortune 100, aziende globali di hardware e startup native AI ad alta crescita come loro clienti iniziali.

Siamo entusiasti di collaborare con @noriyuki_kojima, @jungokasai e l'intero team di @kotoba_tech mentre costruiscono un nuovo laboratorio di ricerca all'avanguardia per il Giappone e una piattaforma Voice AI per l'Asia più ampia e il resto del mondo.

Puoi leggere di più sul nostro investimento qui di seguito:

https://kindredventures.com/announcement/kotoba-developing-voice-ai-for-a-multilingual-world/

Turn one viral article into a full content workflow

Collect the source, decode the pattern, create assets, draft the story, and distribute from one AI workspace.

Explore YouMind

Altri pattern da decodificare

Articoli virali recenti

Esplora altri articoli virali