สร้างเอเจนต์สนทนาแบบเรียลไทม์ด้วย Gemini 3.1 Flash Live

วันนี้ เรากำลังเปิดตัว Gemini 3.1 Flash Live ผ่าน Gemini Live API ใน Google AI Studio Gemini 3.1 Flash Live ช่วยให้นักพัฒนาสามารถสร้างเอเจนต์เสียงและวิสัยทัศน์แบบเรียลไทม์ที่สามารถประมวลผลโลกรอบตัวและตอบสนองด้วยความเร็วเทียบเท่ากับการสนทนา

นี่คือการเปลี่ยนแปลงครั้งสำคัญในด้านความหน่วง ความน่าเชื่อถือ และบทสนทนาที่เป็นธรรมชาติมากขึ้น โดยมอบคุณภาพที่จำเป็นสำหรับ AI ที่ใช้เสียงเป็นหลักในยุคถัดไป

สัมผัสประสบการณ์ความหน่วง ความน่าเชื่อถือ และคุณภาพที่ดียิ่งขึ้น

สำหรับการโต้ตอบแบบเรียลไทม์ ทุกมิลลิวินาทีของความหน่วงจะบั่นทอนความเป็นธรรมชาติของบทสนทนาที่ผู้ใช้คาดหวัง โมเดลใหม่นี้เข้าใจน้ำเสียง การเน้นย้ำ และเจตนาได้ดีขึ้น ช่วยให้เอเจนต์มีการปรับปรุงที่สำคัญ:

อัตราความสำเร็จของงานที่สูงขึ้นในสภาพแวดล้อมจริงที่มีเสียงรบกวน: เราได้ปรับปรุงความสามารถของโมเดลในการเรียกใช้เครื่องมือภายนอกและส่งมอบข้อมูลระหว่างการสนทนาสดอย่างมีนัยสำคัญ ด้วยการแยกแยะคำพูดที่เกี่ยวข้องจากเสียงสิ่งแวดล้อม เช่น เสียงรถยนต์หรือโทรทัศน์ได้ดีขึ้น โมเดลจึงกรองเสียงรบกวนพื้นหลังได้อย่างมีประสิทธิภาพมากขึ้น เพื่อให้คงความน่าเชื่อถือและตอบสนองต่อคำสั่งได้ดี
การปฏิบัติตามคำสั่งที่ดีขึ้น: การยึดมั่นตามคำสั่งระบบที่ซับซ้อนได้รับการปรับปรุงอย่างมาก เอเจนต์ของคุณจะยังคงอยู่ในขอบเขตการทำงานที่กำหนดไว้ แม้ว่าการสนทนาจะเปลี่ยนทิศทางไปอย่างไม่คาดคิด
บทสนทนาที่เป็นธรรมชาติและมีความหน่วงต่ำ: โมเดลล่าสุดนี้ปรับปรุงความหน่วงและมีประสิทธิภาพมากขึ้นในการจดจำความแตกต่างทางเสียง เช่น ระดับเสียงสูงต่ำและจังหวะ เมื่อเทียบกับ 2.5 Flash Native Audio ทำให้การสนทนาแบบเรียลไทม์รู้สึกลื่นไหลและเป็นธรรมชาติมากขึ้น
ความสามารถหลายภาษา: โมเดลรองรับมากกว่า 90 ภาษา สำหรับการสนทนาแบบหลายรูปแบบในแบบเรียลไทม์

ดูการทำงานของ Gemini Live API

นักพัฒนากำลังสร้างเอเจนต์เสียงที่สื่อสารด้วยความลื่นไหลและจังหวะที่เป็นธรรมชาติ และดำเนินการต่างๆ ได้อย่างน่าเชื่อถือด้วยโมเดล Gemini Flash Live ต่อไปนี้คือตัวอย่างบางส่วนของแอปพลิเคชันในโลกจริงที่ใช้โมเดลนี้เพื่อขับเคลื่อนการโต้ตอบเชิงสนทนา:

Stitch

ด้วยการใช้ Gemini Live API ตอนนี้ Stitch ช่วยให้ผู้ใช้สามารถออกแบบด้วยเสียงตามอารมณ์ได้ เอเจนต์สามารถ 'มองเห็น' ผืนผ้าใบและหน้าจอที่เลือก และให้คำวิจารณ์การออกแบบ สร้างรูปแบบต่างๆ และอื่นๆ อีกมากมาย

Hey Ato

ในตัวอย่างนี้ อุปกรณ์คู่หู AI สำหรับผู้สูงอายุ Ato ใช้ความสามารถหลายภาษาของ Gemini 3.1 Flash Live เพื่อเปลี่ยนบทสนทนาในชีวิตประจำวันให้กลายเป็นความสัมพันธ์ที่แท้จริงสำหรับผู้ใช้

Wits End

ดูว่า ทีม Weekend ผสานรวมการกำหนดลักษณะตัวละครที่แข็งแกร่งและการส่งมอบที่เหมือนมนุษย์ของ Gemini 3.1 Flash Live เพื่อเพิ่มลูกเล่นแบบโรงละครที่ไม่เหมือนใครให้กับ Game Master ในเกม RPG ของพวกเขา - Wit’s end ได้อย่างไร

0:52

สร้างสรรค์ด้วยระบบนิเวศการผสานรวมที่กำลังขยายตัว

Live API ถูกสร้างขึ้นสำหรับสภาพแวดล้อมการผลิต แต่ระบบในโลกจริงจำเป็นต้องจัดการกับอินพุตที่หลากหลาย ตั้งแต่สตรีมวิดีโอสดไปจนถึงการโทรศัพท์ตามความต้องการ

สำหรับระบบที่ต้องการการปรับขนาด WebRTC หรือการกำหนดเส้นทางขอบทั่วโลก เราขอแนะนำให้สำรวจการผสานรวมพันธมิตรของเราเพื่อปรับปรุงการพัฒนาเอเจนต์เสียงและวิดีโอแบบเรียลไทม์

เริ่มต้นใช้งาน Live API**

Gemini 3.1 Flash Live พร้อมให้บริการตั้งแต่วันนี้ผ่าน Gemini API และใน Google AI Studio นักพัฒนาสามารถใช้ Gemini Live API เพื่อผสานรวมโมเดลเข้ากับแอปพลิเคชันของตน

ลองดู

วิดีโอสอนการใช้งาน

นี้เพื่อสร้างเอเจนต์เสียงด้วย Gemini 3:

สำรวจเอกสารสำหรับนักพัฒนาของเราเพื่อเรียนรู้วิธีสร้างเอเจนต์แบบเรียลไทม์

เอกสาร Live API ของ Gemini: สำรวจฟีเจอร์ต่างๆ เช่น การรองรับหลายภาษา การใช้เครื่องมือและการเรียกใช้ฟังก์ชัน การจัดการเซสชัน (สำหรับการจัดการการสนทนาที่ยาวนาน) และโทเค็นชั่วคราว
ตัวอย่าง Live API ของ Gemini: รับแรงบันดาลใจสำหรับประสบการณ์เสียงประเภทต่างๆ ที่คุณสามารถสร้างได้ในวันนี้ด้วยโมเดลนี้
ทักษะ Gemini Live API: สำหรับเอเจนต์การเขียนโค้ดเพื่อเรียนรู้และสร้างด้วย Live API

เริ่มต้นใช้งาน Google GenAI SDK:

python

1import asyncio
2from google import genai
3
4client = genai.Client(api_key="YOUR_API_KEY")
5
6model = "gemini-3.1-flash-live-preview"
7config = {"response_modalities": ["AUDIO"]}
8
9async def main():
10    async with client.aio.live.connect(model=model, config=config) as session:
11        print("Session started")
12        # Send content...
13
14if __name__ == "__main__":
15    asyncio.run(main())

สัมผัสประสบการณ์ความหน่วง ความน่าเชื่อถือ และคุณภาพที่ดียิ่งขึ้น