ปรับปรุงโมเดลเสียง Gemini เพื่อการโต้ตอบด้วยเสียงที่ทรงพลัง

@GoogleAIStudio
อังกฤษ7 เดือนที่ผ่านมา · 12 ธ.ค. 2568
345K
1.5K
184
33
575

TL;DR

Google ได้อัปเดต Gemini 2.5 Flash Native Audio โดยเพิ่มขีดความสามารถในการจัดการเวิร์กโฟลว์ที่ซับซ้อนและบทสนทนาที่เป็นธรรมชาติ พร้อมเปิดตัวฟีเจอร์แปลภาษาแบบพูดโต้ตอบสดได้มากกว่า 70 ภาษา

วันนี้ เรากำลังปล่อย Gemini 2.5 Flash Native Audio ที่อัปเดตแล้วสำหรับ live voice agents การอัปเดตนี้ช่วยปรับปรุงความสามารถของโมเดลในการจัดการเวิร์กโฟลว์ที่ซับซ้อน ปฏิบัติตามคำแนะนำของผู้ใช้ และสนทนาอย่างเป็นธรรมชาติ

Gemini 2.5 Flash Native Audio พร้อมใช้งานแล้วในผลิตภัณฑ์ของ Google รวมถึง Google AI Studio, Vertex AI และเริ่มเปิดตัวใน Gemini Live และ Search Live ซึ่งนำความเป็นธรรมชาติของ native audio มาสู่ Search Live เป็นครั้งแรก ซึ่งหมายความว่าคุณสามารถระดมความคิดแบบสดกับ Gemini ได้อย่างมีประสิทธิภาพมากขึ้น รับความช่วยเหลือแบบเรียลไทม์ใน Search Live หรือสร้างเอเจนต์บริการลูกค้าระดับองค์กรรุ่นต่อไป

นอกเหนือจากการขับเคลื่อนเอเจนต์ที่มีประโยชน์แล้ว native audio ยังปลดล็อกความเป็นไปได้ใหม่ๆ สำหรับการสื่อสารระดับโลก เรากำลังเปิดตัว live speech translation ซึ่งเป็นความสามารถที่ช่วยให้สามารถแปลคำพูดเป็นคำพูดแบบสตรีมมิ่งสำหรับหูฟัง โดยรักษาน้ำเสียง จังหวะ และระดับเสียงของผู้พูดไว้ ประสบการณ์ beta นี้กำลังเปิดตัวใน แอป Google Translate ตั้งแต่วันนี้

เอเจนต์เสียงสด

Google AI Studio - inline image

Gemini 2.5 Flash Native Audio กำลังเปิดใช้งานประสบการณ์การสนทนาที่หลากหลาย

เพื่อเปิดใช้งานกรณีการใช้งานที่หลากหลายในทุกพื้นผิวและผลิตภัณฑ์ เราได้ปรับปรุง Gemini 2.5 Native Audio ในสามด้านหลัก:

  • การเรียกใช้ฟังก์ชันที่เฉียบคมยิ่งขึ้น: เราได้ปรับปรุงความน่าเชื่อถือของโมเดลเมื่อเรียกใช้ฟังก์ชันภายนอก ขณะนี้สามารถระบุได้แม่นยำยิ่งขึ้นว่าเมื่อใดควรดึงข้อมูลแบบเรียลไทม์ระหว่างการสนทนา และผสานข้อมูลนั้นกลับเข้าไปในการตอบสนองด้วยเสียงได้อย่างราบรื่น โดยไม่ทำให้การสนทนาสะดุด ใน ComplexFuncBench Audio ซึ่งเป็นการประเมินที่จับการเรียกใช้ฟังก์ชันหลายขั้นตอนพร้อมข้อจำกัดต่างๆ Gemini 2.5 Native Audio เป็นผู้นำด้วยคะแนน 71.5%
  • การปฏิบัติตามคำแนะนำที่แข็งแกร่ง: โมเดลสามารถจัดการคำแนะนำที่ซับซ้อนได้ดีขึ้น ส่งผลให้ผู้ใช้พึงพอใจมากขึ้นในด้านความสมบูรณ์ของเนื้อหา ด้วยอัตราการปฏิบัติตามคำแนะนำของนักพัฒนาที่ 90% (เพิ่มขึ้นจาก 84%) จึงให้ผลลัพธ์ที่เชื่อถือได้มากขึ้น
  • การสนทนาที่ราบรื่นยิ่งขึ้น: เราประสบความสำเร็จในการปรับปรุงคุณภาพการสนทนาหลายเทิร์นอย่างมีนัยสำคัญ Gemini 2.5 Flash Native Audio สามารถดึงบริบทจากเทิร์นก่อนหน้าได้อย่างมีประสิทธิภาพมากขึ้น ทำให้เกิดการสนทนาที่สอดคล้องกันมากขึ้น

สิ่งที่ลูกค้ากำลังพูด

Google AI Studio - inline image

ประสิทธิภาพของ Gemini 2.5 Flash Native Audio ที่อัปเดตแล้วเมื่อเทียบกับเวอร์ชันก่อนหน้าและคู่แข่งในอุตสาหกรรมบน ComplexFuncBench

ลูกค้า Google Cloud กำลังใช้ความสามารถ native audio ของ Gemini เพื่อขับเคลื่อนผลลัพธ์ทางธุรกิจที่แท้จริง ตั้งแต่การดำเนินการสินเชื่อที่อยู่อาศัยไปจนถึงการโทรศัพท์กับลูกค้า

“ผู้ใช้มักลืมว่ากำลังคุยกับ AI ภายในหนึ่งนาทีหลังจากใช้ Sidekick และในบางกรณีก็ขอบคุณบอทหลังจากแชทนานๆ…ความสามารถ AI ใหม่ของ Live API ที่นำเสนอผ่าน Gemini [2.5 Flash Native Audio] ช่วยให้ผู้ค้าของเราชนะ”



David Wurtz, VP of Product, Shopify

"ด้วยการรวมโมเดล Gemini 2.5 Flash Native Audio…เราได้เพิ่มความสามารถของ Mia อย่างมีนัยสำคัญตั้งแต่เปิดตัวในเดือนพฤษภาคม 2025 การผสมผสานที่ทรงพลังนี้ทำให้เราสามารถสร้างสินเชื่อมากกว่า 14,000 รายการให้กับพาร์ทเนอร์นายหน้าของเรา



"



Jason Bressler, Chief Technology Officer, United Wholesale Mortgage (UWM)

“การทำงานกับโมเดล Gemini 2.5 Flash Native Audio ผ่าน Vertex AI ช่วยให้


Newo.ai

AI Receptionists เพื่อให้บรรลุความฉลาดในการสนทนาที่ไม่มีใครเทียบได้... พวกเขาสามารถระบุผู้พูดหลักได้แม้ในสภาพแวดล้อมที่มีเสียงดัง สลับภาษากลางการสนทนา และฟังดูเป็นธรรมชาติและแสดงอารมณ์ได้อย่างน่าทึ่ง”



David Yang, Co-founder,


Newo.ai

การแปลคำพูดสด

ตอนนี้ Gemini รองรับความสามารถในการแปลคำพูดเป็นคำพูดแบบสดใหม่โดยกำเนิด ซึ่งออกแบบมาเพื่อจัดการทั้งการฟังอย่างต่อเนื่องและการสนทนาสองทาง

ด้วยการฟังอย่างต่อเนื่อง Gemini จะแปลคำพูดในหลายภาษาเป็นภาษาเป้าหมายเดียวโดยอัตโนมัติ ซึ่งช่วยให้คุณใส่หูฟังและได้ยินโลกรอบตัวคุณในภาษาของคุณ

สำหรับการสนทนาสองทาง การแปลคำพูดสดของ Gemini จะจัดการการแปลระหว่างสองภาษาแบบเรียลไทม์ โดยสลับภาษาเอาต์พุตโดยอัตโนมัติตามผู้ที่กำลังพูด ตัวอย่างเช่น หากคุณพูดภาษาอังกฤษและต้องการสนทนากับผู้พูดภาษาฮินดี คุณจะได้ยินคำแปลภาษาอังกฤษแบบเรียลไทม์ในหูฟังของคุณ ในขณะที่โทรศัพท์ของคุณจะกระจายเสียงภาษาฮินดีเมื่อคุณพูดเสร็จ

การแปลคำพูดสดของ Gemini มีความสามารถสำคัญหลายประการที่ช่วยในโลกแห่งความเป็นจริง:

  • การครอบคลุมภาษา: แปลคำพูดในกว่า 70 ภาษาและ 2000 คู่ภาษา โดยผสมผสานความรู้โลกและความสามารถหลายภาษาของโมเดล Gemini เข้ากับความสามารถ native audio
  • การถ่ายโอนสไตล์: จับความละเอียดอ่อนของคำพูดมนุษย์ รักษาน้ำเสียง จังหวะ และระดับเสียงของผู้พูด เพื่อให้การแปลฟังดูเป็นธรรมชาติ
  • อินพุตหลายภาษา: เข้าใจหลายภาษาพร้อมกันในเซสชันเดียว ช่วยให้คุณติดตามการสนทนาหลายภาษาได้โดยไม่ต้องยุ่งยากกับการตั้งค่าภาษา
  • การตรวจจับอัตโนมัติ: ระบุภาษาที่พูดและเริ่มการแปล ดังนั้นคุณไม่จำเป็นต้องรู้ด้วยซ้ำว่ากำลังพูดภาษาอะไรเพื่อเริ่มแปล
  • ความทนทานต่อเสียงรบกวน: กรองเสียงรบกวนรอบข้างเพื่อให้คุณสนทนาได้อย่างสบายใจแม้ในสภาพแวดล้อมกลางแจ้งที่มีเสียงดัง
Google AI Studio - inline image

2:49

ตั้งแต่วันนี้ คุณสามารถลองใช้ประสบการณ์ beta ใหม่ในแอป Google Translate สำหรับ การแปลแบบเรียลไทม์ในหูฟังของคุณ โดยเชื่อมต่อหูฟังกับอุปกรณ์ของคุณแล้วแตะ "Live translate" ประสบการณ์นี้กำลังเปิดตัวไปยังอุปกรณ์ Android ทั้งหมดในสหรัฐอเมริกา เม็กซิโก และอินเดีย โดยจะรองรับ iOS และภูมิภาคอื่นๆ เร็วๆ นี้

จากความคิดเห็น เราจะปรับปรุงประสบการณ์นี้อย่างต่อเนื่องและนำไปสู่ผลิตภัณฑ์ Google เพิ่มเติม เช่น Gemini API ในปี 2026

เริ่มต้นวันนี้

เริ่มสร้าง voice agents วันนี้ด้วย Gemini 2.5 Flash Native Audio ซึ่งพร้อมใช้งานทั่วไปบน Vertex AI และเป็นพรีวิวใน Gemini API อ่าน เอกสารสำหรับนักพัฒนา ของเราหรือลองใช้โดยตรงใน Google AI Studio

โมเดลข้อความเป็นคำพูด Gemini 2.5 Flash และ 2.5 Pro ก็พร้อมใช้งานผ่าน Gemini API ใน Google AI Studio เช่นกัน เริ่มต้นด้วย เอกสารการสร้างคำพูด สำรวจ คู่มือการเขียน prompt หรือดู Gemini API Cookbook เพื่อเริ่มต้น

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind

แพตเทิร์นให้ถอดรหัสเพิ่มเติม

บทความไวรัลล่าสุด

สำรวจบทความไวรัลเพิ่มเติม