วันนี้ เรากำลังเปิดตัว Gemini 3.1 Flash Live ผ่าน Gemini Live API ใน Google AI Studio Gemini 3.1 Flash Live ช่วยให้นักพัฒนาสามารถสร้างเอเจนต์เสียงและวิสัยทัศน์แบบเรียลไทม์ที่สามารถประมวลผลโลกรอบตัวและตอบสนองด้วยความเร็วเทียบเท่ากับการสนทนา
นี่คือการเปลี่ยนแปลงครั้งสำคัญในด้านความหน่วง ความน่าเชื่อถือ และบทสนทนาที่เป็นธรรมชาติมากขึ้น โดยมอบคุณภาพที่จำเป็นสำหรับ AI ที่ใช้เสียงเป็นหลักในยุคถัดไป
สัมผัสประสบการณ์ความหน่วง ความน่าเชื่อถือ และคุณภาพที่ดียิ่งขึ้น
สำหรับการโต้ตอบแบบเรียลไทม์ ทุกมิลลิวินาทีของความหน่วงจะบั่นทอนความเป็นธรรมชาติของบทสนทนาที่ผู้ใช้คาดหวัง โมเดลใหม่นี้เข้าใจน้ำเสียง การเน้นย้ำ และเจตนาได้ดีขึ้น ช่วยให้เอเจนต์มีการปรับปรุงที่สำคัญ:
- อัตราความสำเร็จของงานที่สูงขึ้นในสภาพแวดล้อมจริงที่มีเสียงรบกวน: เราได้ปรับปรุงความสามารถของโมเดลในการเรียกใช้เครื่องมือภายนอกและส่งมอบข้อมูลระหว่างการสนทนาสดอย่างมีนัยสำคัญ ด้วยการแยกแยะคำพูดที่เกี่ยวข้องจากเสียงสิ่งแวดล้อม เช่น เสียงรถยนต์หรือโทรทัศน์ได้ดีขึ้น โมเดลจึงกรองเสียงรบกวนพื้นหลังได้อย่างมีประสิทธิภาพมากขึ้น เพื่อให้คงความน่าเชื่อถือและตอบสนองต่อคำสั่งได้ดี
- การปฏิบัติตามคำสั่งที่ดีขึ้น: การยึดมั่นตามคำสั่งระบบที่ซับซ้อนได้รับการปรับปรุงอย่างมาก เอเจนต์ของคุณจะยังคงอยู่ในขอบเขตการทำงานที่กำหนดไว้ แม้ว่าการสนทนาจะเปลี่ยนทิศทางไปอย่างไม่คาดคิด
- บทสนทนาที่เป็นธรรมชาติและมีความหน่วงต่ำ: โมเดลล่าสุดนี้ปรับปรุงความหน่วงและมีประสิทธิภาพมากขึ้นในการจดจำความแตกต่างทางเสียง เช่น ระดับเสียงสูงต่ำและจังหวะ เมื่อเทียบกับ 2.5 Flash Native Audio ทำให้การสนทนาแบบเรียลไทม์รู้สึกลื่นไหลและเป็นธรรมชาติมากขึ้น
- ความสามารถหลายภาษา: โมเดลรองรับมากกว่า 90 ภาษา สำหรับการสนทนาแบบหลายรูปแบบในแบบเรียลไทม์
ดูการทำงานของ Gemini Live API
นักพัฒนากำลังสร้างเอเจนต์เสียงที่สื่อสารด้วยความลื่นไหลและจังหวะที่เป็นธรรมชาติ และดำเนินการต่างๆ ได้อย่างน่าเชื่อถือด้วยโมเดล Gemini Flash Live ต่อไปนี้คือตัวอย่างบางส่วนของแอปพลิเคชันในโลกจริงที่ใช้โมเดลนี้เพื่อขับเคลื่อนการโต้ตอบเชิงสนทนา:
Stitch
ด้วยการใช้ Gemini Live API ตอนนี้ Stitch ช่วยให้ผู้ใช้สามารถออกแบบด้วยเสียงตามอารมณ์ได้ เอเจนต์สามารถ 'มองเห็น' ผืนผ้าใบและหน้าจอที่เลือก และให้คำวิจารณ์การออกแบบ สร้างรูปแบบต่างๆ และอื่นๆ อีกมากมาย
Hey Ato
ในตัวอย่างนี้ อุปกรณ์คู่หู AI สำหรับผู้สูงอายุ Ato ใช้ความสามารถหลายภาษาของ Gemini 3.1 Flash Live เพื่อเปลี่ยนบทสนทนาในชีวิตประจำวันให้กลายเป็นความสัมพันธ์ที่แท้จริงสำหรับผู้ใช้
Wits End
ดูว่า ทีม Weekend ผสานรวมการกำหนดลักษณะตัวละครที่แข็งแกร่งและการส่งมอบที่เหมือนมนุษย์ของ Gemini 3.1 Flash Live เพื่อเพิ่มลูกเล่นแบบโรงละครที่ไม่เหมือนใครให้กับ Game Master ในเกม RPG ของพวกเขา - Wit’s end ได้อย่างไร
0:52
สร้างสรรค์ด้วยระบบนิเวศการผสานรวมที่กำลังขยายตัว
Live API ถูกสร้างขึ้นสำหรับสภาพแวดล้อมการผลิต แต่ระบบในโลกจริงจำเป็นต้องจัดการกับอินพุตที่หลากหลาย ตั้งแต่สตรีมวิดีโอสดไปจนถึงการโทรศัพท์ตามความต้องการ
สำหรับระบบที่ต้องการการปรับขนาด WebRTC หรือการกำหนดเส้นทางขอบทั่วโลก เราขอแนะนำให้สำรวจการผสานรวมพันธมิตรของเราเพื่อปรับปรุงการพัฒนาเอเจนต์เสียงและวิดีโอแบบเรียลไทม์

เริ่มต้นใช้งาน Live API**
Gemini 3.1 Flash Live พร้อมให้บริการตั้งแต่วันนี้ผ่าน Gemini API และใน Google AI Studio นักพัฒนาสามารถใช้ Gemini Live API เพื่อผสานรวมโมเดลเข้ากับแอปพลิเคชันของตน
ลองดู
นี้เพื่อสร้างเอเจนต์เสียงด้วย Gemini 3:
สำรวจเอกสารสำหรับนักพัฒนาของเราเพื่อเรียนรู้วิธีสร้างเอเจนต์แบบเรียลไทม์
- เอกสาร Live API ของ Gemini: สำรวจฟีเจอร์ต่างๆ เช่น การรองรับหลายภาษา การใช้เครื่องมือและการเรียกใช้ฟังก์ชัน การจัดการเซสชัน (สำหรับการจัดการการสนทนาที่ยาวนาน) และโทเค็นชั่วคราว
- ตัวอย่าง Live API ของ Gemini: รับแรงบันดาลใจสำหรับประสบการณ์เสียงประเภทต่างๆ ที่คุณสามารถสร้างได้ในวันนี้ด้วยโมเดลนี้
- ทักษะ Gemini Live API: สำหรับเอเจนต์การเขียนโค้ดเพื่อเรียนรู้และสร้างด้วย Live API
เริ่มต้นใช้งาน Google GenAI SDK:
1import asyncio2from google import genai34client = genai.Client(api_key="YOUR_API_KEY")56model = "gemini-3.1-flash-live-preview"7config = {"response_modalities": ["AUDIO"]}89async def main():10 async with client.aio.live.connect(model=model, config=config) as session:11 print("Session started")12 # Send content...1314if __name__ == "__main__":15 asyncio.run(main())








