การพัฒนา AI เสียงแบบเรียลไทม์สำหรับโลกที่พูดได้หลายภาษา

@stevejang
อังกฤษ2 วันที่ผ่านมา · 30 มิ.ย. 2569
1.3M
108
24
5
39

TL;DR

Kindred Ventures เป็นผู้นำในการระดมทุนรอบ Seed จำนวน 10 ล้านดอลลาร์ให้กับ Kotoba ซึ่งเป็นห้องปฏิบัติการวิจัยที่พัฒนา AI เสียงและโมเดลการแปลแบบเรียลไทม์ที่สร้างขึ้นเพื่อตลาดญี่ปุ่น เกาหลี และจีนโดยเฉพาะ

สำหรับพวกเราหลายคนในซิลิคอนแวลลีย์และศูนย์กลางเทคโนโลยีระดับโลกอื่นๆ เราต่างตระหนักดีว่า Voice AI กำลังก้าวขึ้นมาเป็นรูปแบบหลักใหม่ในการทำงาน สื่อสาร และโต้ตอบระหว่างมนุษย์กับเอเจนต์ และระหว่างมนุษย์ด้วยกันเอง การเปลี่ยนแปลงนี้เห็นได้ชัดเจนมากขึ้นเรื่อยๆ เมื่อระบบเอเจนต์ก้าวข้ามขีดจำกัดด้านการเขียนโค้ดไปสู่สายงานความรู้ใหม่ๆ เช่น Perplexity Computer และ Claude Cowork, แอปพลิเคชันสำหรับผู้บริโภคอย่าง Wispr Flow, Sierra และ Granola รวมถึงการฝังตัวของเอเจนต์ในรถยนต์ หุ่นยนต์ และอุปกรณ์สวมใส่ต่างๆ มากมาย แต่นอกเหนือจากแวดวงของเราแล้ว ภาษาที่สำคัญที่สุดหลายภาษาของโลกกลับถูกมองข้าม และความก้าวหน้าในการเชื่อมโยงภาษาเหล่านี้และผู้พูดภาษานั้นๆ ก็ยังมีน้อยมาก

จากการนับในปัจจุบัน เอเชียเป็นที่อยู่อาศัยของประชากรเกือบ 5 พันล้านคน เฉพาะเอเชียตะวันออกเพียงแห่งเดียวก็มีประชากรถึง 1.6 พันล้านคน หรือ 20% ของประชากรโลก ประมาณครึ่งหนึ่งของพนักงานสายความรู้ทั่วโลกพูดภาษาเอเชีย ชุดโมเดล Speech AI รุ่นใหม่ที่ถูกฝึกฝนมาโดยเฉพาะสำหรับภาษาเอเชีย จะช่วยให้เราสามารถบรรลุเป้าหมายในการทำให้มัลติโมดัลอินเทลลิเจนซ์อยู่ใกล้แค่เอื้อมสำหรับคนส่วนใหญ่ของโลกได้อย่างแท้จริง

ด้วยภาษาที่แตกต่างกันหลายร้อยภาษา แต่ละภาษามีความแตกต่างทางภาษาและคุณลักษณะของข้อมูลเป็นของตัวเอง การสร้างโซลูชันสำหรับเอเชียตะวันออกจึงต้องอาศัยมากกว่าการต่อยอดจากโมเดลที่เน้นภาษาอังกฤษเป็นหลัก การสร้างอนาคตของงานสายความรู้ระดับโลกนั้นต้องการแนวทางแบบเริ่มต้นจากศูนย์ทั้งในการฝึกฝนโมเดลและความเชี่ยวชาญด้านตลาด

ลองมองภาพกว้างขึ้น เราทุกคนต่างก็ได้เห็นงานวิจัยแนวหน้าส่วนใหญ่ในเอเชียที่กระจุกตัวอยู่ในจีน โดยเฉพาะในด้าน Large Language Models (LLM) แบบโอเพนเวทและเจเนอเรทีฟมีเดีย ในช่วงปีที่ผ่านมาในญี่ปุ่นและเกาหลี เราเริ่มเห็นคลื่นลูกใหม่ของห้องปฏิบัติการวิจัยเกิดขึ้น ทีมวิจัยเหล่านี้ไม่ได้มุ่งเน้นแค่การพัฒนา LLM ท้องถิ่นในรูปแบบต่างๆ เช่น Upstage และ Sakana แต่ยังรวมถึงห้องปฏิบัติการใหม่ๆ ที่พัฒนามัลติโมดัลลิตี้ด้วยโมเดลเสียงพูดและความเข้าใจวิดีโอ รวมถึง AI เชิงกายภาพด้วยปัญญาหุ่นยนต์และเวิลด์โมเดล

วันนี้ เรารู้สึกตื่นเต้นที่จะประกาศว่า @KindredVentures นำรอบระดมทุน Seed รอบ 10 ล้านดอลลาร์สหรัฐใน Kotoba (@kotoba_tech) ร่วมกับ Salesforce @SalesforceVC และ Sony Ventures (@Sony_Innov_Fund) ในการสนทนาครั้งแรกๆ กับผู้ก่อตั้งเกี่ยวกับข้อมูลการฝึกฝนและสถาปัตยกรรมโมเดล เราประทับใจอย่างมากกับโมเดล ASR และ TTS คุณภาพสูงสุดของพวกเขา ซึ่งเหมาะอย่างยิ่งสำหรับไปป์ไลน์เอเจนต์ต่างๆ รวมถึงความก้าวหน้าในการวิจัยโมเดล Edge ขนาดเล็กสำหรับการอินเฟอร์เรนซ์บนอุปกรณ์ และโมเดลการแปลภาษาแบบ Speech-to-Speech แบบเรียลไทม์ที่ล้ำสมัย ซึ่งมีประสิทธิภาพเหนือกว่าโมเดลการแปลจาก Google, Microsoft และ OpenAI

ก่อตั้งโดย @noriyuki_kojima (PhD, @Cornell และ @jungokasai (PhD, @UW@kotoba_tech กำลังสร้าง Speech AI สำหรับภาษาเอเชียตะวันออก ในผลงานก่อนหน้านี้ พวกเขาเป็นผู้ร่วมก่อตั้งโครงการวิจัยร่วมระหว่างรัฐบาลญี่ปุ่นและมหาวิทยาลัยในยุคแรกๆ ที่เรียกว่าโครงการ LLM-Fugaku ซึ่งเป็นโครงการริเริ่มโมเดลภาษาขนาดใหญ่ของญี่ปุ่นที่สร้างขึ้นบนซูเปอร์คอมพิวเตอร์ Fugaku ที่ใช้ CPU เพียงอย่างเดียว พวกเขาสามารถฝึกฝน LLM ภาษาญี่ปุ่นได้สำเร็จโดยใช้สถาปัตยกรรม Transformer โดยไม่ต้องใช้ GPU เลย มีเพียง CPU เท่านั้น ปัจจุบันที่ Kotoba ตระกูลโมเดลที่เป็นกรรมสิทธิ์ของ Koto มอบประสิทธิภาพระดับชั้นนำในภาษาญี่ปุ่น เกาหลี และจีน ขับเคลื่อนเอเจนต์เสียง AI, อุปกรณ์, อุปกรณ์สวมใส่, หุ่นยนต์ และการแปลเสียงพูดแบบเรียลไทม์และการให้เหตุผลด้วยความแม่นยำและเวลาหน่วงที่ตลาดเหล่านี้ต้องการ

สิ่งที่โดดเด่นเกี่ยวกับทีมนี้คือการผสมผสานที่หาได้ยากของงานวิจัยระดับโลก ความเข้าใจเชิงวัฒนธรรมอย่างลึกซึ้งในเอเชียตะวันออก และผลิตภัณฑ์ที่แสดงให้เห็นถึงแรงผลักดันที่มีความหมายแล้ว โมเดลของ Kotoba ไม่ใช่การดัดแปลงจากระบบที่เน้นภาษาอังกฤษเป็นหลัก แต่ถูกสร้างขึ้นมาโดยเฉพาะสำหรับความเป็นจริงทางภาษาของตลาดที่พวกเขาให้บริการ ด้วยแนวทางการฝึกฝนที่เป็นเอกลักษณ์ เพียง 6 เดือนหลังจากเปิดตัวโมเดลแรก โมเดลของพวกเขาก็มีเวลาหน่วงที่ต่ำกว่าและคุณภาพของจังหวะเสียง (prosody) ที่สูงกว่าโมเดลอื่นๆ จากบริษัทตะวันตกอย่างสม่ำเสมอ * ในหกเดือนแรกหลังจากเปิดตัวโมเดลให้ลูกค้าใช้งานเป็นการส่วนตัว ปัจจุบัน Kotoba นับรวมบริษัทติดอันดับ Fortune 100 หลายแห่ง บริษัทฮาร์ดแวร์ระดับโลก และสตาร์ทอัพสาย AI ยุคใหม่ที่เติบโตสูงเป็นลูกค้ากลุ่มแรก

เรารู้สึกตื่นเต้นที่จะได้เป็นพันธมิตรกับ @noriyuki_kojima, @jungokasai และทีมงาน @kotoba_tech ทั้งหมด ในขณะที่พวกเขากำลังสร้างห้องปฏิบัติการวิจัยแนวหน้าแห่งใหม่ให้กับญี่ปุ่น และแพลตฟอร์ม Voice AI สำหรับเอเชียในวงกว้างและส่วนอื่นๆ ของโลก

คุณสามารถอ่านเพิ่มเติมเกี่ยวกับการลงทุนของเราได้ที่ด้านล่าง:

https://kindredventures.com/announcement/kotoba-developing-voice-ai-for-a-multilingual-world/

Turn one viral article into a full content workflow

Collect the source, decode the pattern, create assets, draft the story, and distribute from one AI workspace.

Explore YouMind

แพตเทิร์นให้ถอดรหัสเพิ่มเติม

บทความไวรัลล่าสุด

สำรวจบทความไวรัลเพิ่มเติม