สร้างเอเจนต์สนทนาแบบเรียลไทม์ด้วย Gemini 3.1 Flash Live

@GoogleAIStudio
อังกฤษ3 เดือนที่ผ่านมา · 26 มี.ค. 2569
2.7M
2.4K
341
72
4.8K

TL;DR

Google เปิดตัว Gemini 3.1 Flash Live โมเดลความหน่วงต่ำสำหรับการโต้ตอบด้วยเสียงและภาพแบบเรียลไทม์ ซึ่งมาพร้อมความสามารถในการปฏิบัติตามคำสั่งที่ดียิ่งขึ้นและรองรับภาษาต่างๆ มากกว่า 90 ภาษา

วันนี้ เรากำลังเปิดตัว Gemini 3.1 Flash Live ผ่าน Gemini Live API ใน Google AI Studio Gemini 3.1 Flash Live ช่วยให้นักพัฒนาสามารถสร้างเอเจนต์เสียงและวิสัยทัศน์แบบเรียลไทม์ที่สามารถประมวลผลโลกรอบตัวและตอบสนองด้วยความเร็วเทียบเท่ากับการสนทนา

นี่คือการเปลี่ยนแปลงครั้งสำคัญในด้านความหน่วง ความน่าเชื่อถือ และบทสนทนาที่เป็นธรรมชาติมากขึ้น โดยมอบคุณภาพที่จำเป็นสำหรับ AI ที่ใช้เสียงเป็นหลักในยุคถัดไป

สัมผัสประสบการณ์ความหน่วง ความน่าเชื่อถือ และคุณภาพที่ดียิ่งขึ้น

สำหรับการโต้ตอบแบบเรียลไทม์ ทุกมิลลิวินาทีของความหน่วงจะบั่นทอนความเป็นธรรมชาติของบทสนทนาที่ผู้ใช้คาดหวัง โมเดลใหม่นี้เข้าใจน้ำเสียง การเน้นย้ำ และเจตนาได้ดีขึ้น ช่วยให้เอเจนต์มีการปรับปรุงที่สำคัญ:

  • อัตราความสำเร็จของงานที่สูงขึ้นในสภาพแวดล้อมจริงที่มีเสียงรบกวน: เราได้ปรับปรุงความสามารถของโมเดลในการเรียกใช้เครื่องมือภายนอกและส่งมอบข้อมูลระหว่างการสนทนาสดอย่างมีนัยสำคัญ ด้วยการแยกแยะคำพูดที่เกี่ยวข้องจากเสียงสิ่งแวดล้อม เช่น เสียงรถยนต์หรือโทรทัศน์ได้ดีขึ้น โมเดลจึงกรองเสียงรบกวนพื้นหลังได้อย่างมีประสิทธิภาพมากขึ้น เพื่อให้คงความน่าเชื่อถือและตอบสนองต่อคำสั่งได้ดี
  • การปฏิบัติตามคำสั่งที่ดีขึ้น: การยึดมั่นตามคำสั่งระบบที่ซับซ้อนได้รับการปรับปรุงอย่างมาก เอเจนต์ของคุณจะยังคงอยู่ในขอบเขตการทำงานที่กำหนดไว้ แม้ว่าการสนทนาจะเปลี่ยนทิศทางไปอย่างไม่คาดคิด
  • บทสนทนาที่เป็นธรรมชาติและมีความหน่วงต่ำ: โมเดลล่าสุดนี้ปรับปรุงความหน่วงและมีประสิทธิภาพมากขึ้นในการจดจำความแตกต่างทางเสียง เช่น ระดับเสียงสูงต่ำและจังหวะ เมื่อเทียบกับ 2.5 Flash Native Audio ทำให้การสนทนาแบบเรียลไทม์รู้สึกลื่นไหลและเป็นธรรมชาติมากขึ้น
  • ความสามารถหลายภาษา: โมเดลรองรับมากกว่า 90 ภาษา สำหรับการสนทนาแบบหลายรูปแบบในแบบเรียลไทม์

ดูการทำงานของ Gemini Live API

นักพัฒนากำลังสร้างเอเจนต์เสียงที่สื่อสารด้วยความลื่นไหลและจังหวะที่เป็นธรรมชาติ และดำเนินการต่างๆ ได้อย่างน่าเชื่อถือด้วยโมเดล Gemini Flash Live ต่อไปนี้คือตัวอย่างบางส่วนของแอปพลิเคชันในโลกจริงที่ใช้โมเดลนี้เพื่อขับเคลื่อนการโต้ตอบเชิงสนทนา:

Stitch

ด้วยการใช้ Gemini Live API ตอนนี้ Stitch ช่วยให้ผู้ใช้สามารถออกแบบด้วยเสียงตามอารมณ์ได้ เอเจนต์สามารถ 'มองเห็น' ผืนผ้าใบและหน้าจอที่เลือก และให้คำวิจารณ์การออกแบบ สร้างรูปแบบต่างๆ และอื่นๆ อีกมากมาย

Google AI Studio - inline image

Hey Ato

ในตัวอย่างนี้ อุปกรณ์คู่หู AI สำหรับผู้สูงอายุ Ato ใช้ความสามารถหลายภาษาของ Gemini 3.1 Flash Live เพื่อเปลี่ยนบทสนทนาในชีวิตประจำวันให้กลายเป็นความสัมพันธ์ที่แท้จริงสำหรับผู้ใช้

Google AI Studio - inline image

Wits End

ดูว่า ทีม Weekend ผสานรวมการกำหนดลักษณะตัวละครที่แข็งแกร่งและการส่งมอบที่เหมือนมนุษย์ของ Gemini 3.1 Flash Live เพื่อเพิ่มลูกเล่นแบบโรงละครที่ไม่เหมือนใครให้กับ Game Master ในเกม RPG ของพวกเขา - Wit’s end ได้อย่างไร

Google AI Studio - inline image

0:52

สร้างสรรค์ด้วยระบบนิเวศการผสานรวมที่กำลังขยายตัว

Live API ถูกสร้างขึ้นสำหรับสภาพแวดล้อมการผลิต แต่ระบบในโลกจริงจำเป็นต้องจัดการกับอินพุตที่หลากหลาย ตั้งแต่สตรีมวิดีโอสดไปจนถึงการโทรศัพท์ตามความต้องการ

สำหรับระบบที่ต้องการการปรับขนาด WebRTC หรือการกำหนดเส้นทางขอบทั่วโลก เราขอแนะนำให้สำรวจการผสานรวมพันธมิตรของเราเพื่อปรับปรุงการพัฒนาเอเจนต์เสียงและวิดีโอแบบเรียลไทม์

Google AI Studio - inline image

เริ่มต้นใช้งาน Live API**

Gemini 3.1 Flash Live พร้อมให้บริการตั้งแต่วันนี้ผ่าน Gemini API และใน Google AI Studio นักพัฒนาสามารถใช้ Gemini Live API เพื่อผสานรวมโมเดลเข้ากับแอปพลิเคชันของตน

ลองดู


วิดีโอสอนการใช้งาน

นี้เพื่อสร้างเอเจนต์เสียงด้วย Gemini 3:

สำรวจเอกสารสำหรับนักพัฒนาของเราเพื่อเรียนรู้วิธีสร้างเอเจนต์แบบเรียลไทม์

  • เอกสาร Live API ของ Gemini: สำรวจฟีเจอร์ต่างๆ เช่น การรองรับหลายภาษา การใช้เครื่องมือและการเรียกใช้ฟังก์ชัน การจัดการเซสชัน (สำหรับการจัดการการสนทนาที่ยาวนาน) และโทเค็นชั่วคราว
  • ตัวอย่าง Live API ของ Gemini: รับแรงบันดาลใจสำหรับประสบการณ์เสียงประเภทต่างๆ ที่คุณสามารถสร้างได้ในวันนี้ด้วยโมเดลนี้
  • ทักษะ Gemini Live API: สำหรับเอเจนต์การเขียนโค้ดเพื่อเรียนรู้และสร้างด้วย Live API

เริ่มต้นใช้งาน Google GenAI SDK:

python
1import asyncio
2from google import genai
3
4client = genai.Client(api_key="YOUR_API_KEY")
5
6model = "gemini-3.1-flash-live-preview"
7config = {"response_modalities": ["AUDIO"]}
8
9async def main():
10 async with client.aio.live.connect(model=model, config=config) as session:
11 print("Session started")
12 # Send content...
13
14if __name__ == "__main__":
15 asyncio.run(main())
Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind
สำหรับครีเอเตอร์

เปลี่ยน Markdown ของคุณให้เป็นบทความ 𝕏 ที่สะอาดตา

เวลาคุณเผยแพร่งานเขียนยาวของตัวเอง การจัดรูปแบบรูปภาพ ตาราง และบล็อกโค้ดให้เข้ากับ 𝕏 นั้นน่าปวดหัว YouMind เปลี่ยนร่าง Markdown ทั้งฉบับให้เป็นบทความ 𝕏 ที่สะอาดตาและพร้อมโพสต์ทันที

ลอง Markdown เป็น 𝕏

แพตเทิร์นให้ถอดรหัสเพิ่มเติม

บทความไวรัลล่าสุด

สำรวจบทความไวรัลเพิ่มเติม