Gemini Embedding 2: โมเดล Embedding แบบ Multimodal รุ่นแรกของเราที่สร้างขึ้นมาโดยเฉพาะ

@GoogleAIStudio
อังกฤษ4 เดือนที่ผ่านมา · 10 มี.ค. 2569
4.6M
11.3K
1.3K
260
9.3K

TL;DR

Gemini Embedding 2 คือโมเดล Embedding แบบ Multimodal รุ่นแรกของ Google ที่ช่วยให้สามารถดึงข้อมูลข้ามรูปแบบทั้งข้อความ วิดีโอ และเสียงได้อย่างราบรื่น พร้อมความยืดหยุ่นในการปรับขนาดมิติข้อมูลและรองรับภาษาต่างๆ มากกว่า 100 ภาษา

Gemini Embedding 2 เป็นโมเดล embedding แบบ multimodal ดั้งเดิมตัวแรกของเราที่แมปข้อความ รูปภาพ วิดีโอ เสียง และเอกสารเข้าไว้ในพื้นที่ embedding เดียวกัน ทำให้สามารถค้นคืนและจำแนกข้อมูลแบบ multimodal ข้ามสื่อประเภทต่างๆ ได้ — และตอนนี้พร้อมให้ใช้งานในรุ่น public preview แล้ว

วันนี้เรากำลังเปิดตัว Gemini Embedding 2 ซึ่งเป็นโมเดล embedding แบบ multimodal เต็มรูปแบบตัวแรกของเราที่สร้างบนสถาปัตยกรรม Gemini ในรุ่น Public Preview ผ่าน Gemini API และ Vertex AI

ต่อยอดจากพื้นฐานที่รองรับเฉพาะข้อความในรุ่นก่อนหน้า Gemini Embedding 2 แมปข้อความ รูปภาพ วิดีโอ เสียง และเอกสารเข้าไว้ในพื้นที่ embedding ที่เป็นหนึ่งเดียว และจับความหมายเชิงความหมายในกว่า 100 ภาษา ซึ่งช่วยลดความซับซ้อนของ pipeline และปรับปรุงงานปลายทางแบบ multimodal ที่หลากหลาย ตั้งแต่ Retrieval-Augmented Generation (RAG) และการค้นหาเชิงความหมาย ไปจนถึงการวิเคราะห์ความรู้สึกและการจัดกลุ่มข้อมูล

โมดอลใหม่และมิติเอาต์พุตที่ยืดหยุ่น

โมเดลนี้ใช้ Gemini และใช้ประโยชน์จากความสามารถในการทำความเข้าใจแบบ multimodal ระดับดีเยี่ยมเพื่อสร้าง embedding คุณภาพสูงใน:

  • ข้อความ: รองรับบริบทที่กว้างขวางสูงสุด 8192 โทเค็นอินพุต
  • รูปภาพ: สามารถประมวลผลรูปภาพได้สูงสุด 6 ภาพต่อคำขอ รองรับรูปแบบ PNG และ JPEG
  • วิดีโอ: รองรับวิดีโออินพุตสูงสุด 120 วินาทีในรูปแบบ MP4 และ MOV
  • เสียง: รับและฝังข้อมูลเสียงโดยตรงโดยไม่ต้องใช้การถอดความข้อความขั้นกลาง
  • เอกสาร: ฝัง PDF ได้โดยตรงสูงสุด 6 หน้า

นอกเหนือจากการประมวลผลทีละโมดอลแล้ว โมเดลนี้ยังเข้าใจอินพุตแบบสลับกันโดยธรรมชาติ คุณจึงสามารถส่งอินพุตหลายโมดอล (เช่น รูปภาพ + ข้อความ) ในคำขอเดียวได้ ซึ่งช่วยให้โมเดลจับความสัมพันธ์ที่ซับซ้อนและละเอียดอ่อนระหว่างสื่อประเภทต่างๆ ปลดล็อกความเข้าใจที่แม่นยำยิ่งขึ้นเกี่ยวกับข้อมูลที่ซับซ้อนในโลกจริง

Google AI Studio - inline image

0:37

เช่นเดียวกับโมเดล embedding รุ่นก่อนหน้า Gemini Embedding 2 ใช้ Matryoshka Representation Learning (MRL) ซึ่งเป็นเทคนิคที่ 'ซ้อน' ข้อมูลโดยการลดขนาดมิติแบบไดนามิก ทำให้สามารถปรับขนาดมิติเอาต์พุตได้อย่างยืดหยุ่นจากค่าเริ่มต้น 3072 เพื่อให้นักพัฒนาสามารถปรับสมดุลระหว่างประสิทธิภาพและต้นทุนการจัดเก็บ เราขอแนะนำให้ใช้มิติ 3072, 1536, 768 เพื่อคุณภาพสูงสุด

ประสิทธิภาพระดับแนวหน้า

Gemini Embedding 2 ไม่ได้แค่ปรับปรุงจากโมเดลรุ่นเก่าเท่านั้น แต่ยังสร้างมาตรฐานประสิทธิภาพใหม่สำหรับความลึกแบบ multimodal โดยแนะนำความสามารถด้านเสียงที่แข็งแกร่งและมีประสิทธิภาพเหนือกว่าโมเดลชั้นนำในงานข้อความ รูปภาพ และวิดีโอ การปรับปรุงที่วัดได้และการครอบคลุมแบบ multimodal ที่ไม่เหมือนใครนี้มอบสิ่งที่นักพัฒนาต้องการสำหรับความต้องการ embedding ที่หลากหลาย

Google AI Studio - inline image

ปลดล็อกความหมายที่ลึกซึ้งยิ่งขึ้นสำหรับข้อมูล

Embedding คือเทคโนโลยีที่ขับเคลื่อนประสบการณ์ในผลิตภัณฑ์ Google หลายรายการ ตั้งแต่ RAG ที่ embedding มีบทบาทสำคัญในการปรับแต่งบริบท ไปจนถึงการจัดการข้อมูลขนาดใหญ่และการค้นหา/วิเคราะห์แบบคลาสสิก พันธมิตรที่เข้าถึงก่อนบางรายของเรากำลังใช้ Gemini Embedding 2 เพื่อปลดล็อกแอปพลิเคชัน multimodal ที่มีมูลค่าสูงแล้ว:

*"เราเลือก Gemini embeddings เพื่อช่วยให้ผู้เชี่ยวชาญด้านกฎหมายค้นหาข้อมูลสำคัญในระหว่างกระบวนการค้นหาหลักฐานในการดำเนินคดี ซึ่งเป็นความท้าทายทางเทคนิคสูงในสถานการณ์ที่มีความเสี่ยงสูง และเป็นสิ่งที่ Gemini ทำได้ดีเยี่ยม ในการทดสอบล่าสุดของเรา โมเดล embedding แบบ multimodal ของ Gemini ช่วยเพิ่ม precision และ recall ในหลายล้านเรกคอร์ด พร้อมปลดล็อกฟังก์ชันการค้นหาใหม่ที่ทรงพลังสำหรับรูปภาพและวิดีโอ สำหรับผู้เชี่ยวชาญด้านกฎหมาย ความสามารถใหม่เหล่านี้เปิดวิธีใหม่ทั้งหมดในการทำความเข้าใจเอกสารคดีอย่างรวดเร็ว แม้ในคดีที่ใหญ่ที่สุด"

*




**Max Christoff

CTO

Everlaw**

"Gemini Embedding 2 เป็นรากฐานของ Creator Economic Equality Engine ของ Sparkonomy ความสามารถแบบ multimodal ดั้งเดิมของมันช่วยลด latency ของเราได้ถึง 70% โดยการตัดการอนุมานของ LLM และเพิ่มคะแนนความคล้ายคลึงเชิงความหมายสำหรับคู่ข้อความ-รูปภาพและข้อความ-วิดีโอเกือบสองเท่า—จาก 0.4 เป็น 0.8 ซึ่งขับเคลื่อน Creator Genome ที่เป็นกรรมสิทธิ์ของเราในการจัดทำดัชนีวิดีโอหลายล้านนาที พร้อมรูปภาพและข้อความ ด้วยความแม่นยำที่ไม่เคยมีมาก่อน—ปลดล็อกความร่วมมือกับแบรนด์ที่ปราศจากอคติและทำให้ความสำเร็จทางเศรษฐกิจเป็นประชาธิปไตยสำหรับทุกครีเอเตอร์"



**Guneet Singh

ผู้ร่วมก่อตั้ง

Sparkonomy**

"ความต่อเนื่องของ API นั้นยอดเยี่ยมมาก Gemini Embedding 2 เข้ากับเวิร์กโฟลว์ที่มีอยู่ของเราได้ทันทีโดยมีการเปลี่ยนแปลงน้อยมาก เรากำลังทดสอบวิธีใหม่ในการฝังความทรงจำจากการสนทนาที่เป็นข้อความร่วมกับ embedding เสียงและภาพ โดยเฉพาะคู่คำถาม-คำตอบของผู้ช่วย และเห็นการเพิ่มขึ้น 20% ใน top-1 recall สำหรับแอปพลิเคชันเพื่อสุขภาพส่วนบุคคลของเรา"



**Ertuğrul Çavuşoğlu

ผู้ร่วมก่อตั้ง

Mindlid**

เริ่มสร้างวันนี้

เริ่มต้นใช้งานโมเดล Gemini Embedding 2 ผ่าน Gemini API หรือ Vertex AI

python
1from google import genai
2from google.genai import types
3
4# สำหรับ Vertex AI:
5# PROJECT_ID='<add_here>'
6# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')
7
8client = genai.Client()
9
10with open("example.png", "rb") as f:
11 image_bytes = f.read()
12
13with open("sample.mp3", "rb") as f:
14 audio_bytes = f.read()
15
16# ฝังข้อความ รูปภาพ และเสียง
17result = client.models.embed_content(
18 model="gemini-embedding-2-preview",
19 contents=[
20 "ความหมายของชีวิตคืออะไร?",
21 types.Part.from_bytes(
22 data=image_bytes,
23 mime_type="image/png",
24 ),
25 types.Part.from_bytes(
26 data=audio_bytes,
27 mime_type="audio/mpeg",
28 ),
29 ],
30)
31
32print(result.embeddings)

เรียนรู้วิธีใช้โมเดลใน Colab notebooks แบบโต้ตอบของเรา Gemini API และ Vertex AI คุณยังสามารถใช้ผ่าน LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB และ Vector Search

ด้วยการนำความหมายเชิงความหมายมาสู่ข้อมูลที่หลากหลายรอบตัวเรา Gemini Embedding 2 มอบรากฐาน multimodal ที่จำเป็นสำหรับยุคถัดไปของประสบการณ์ AI ขั้นสูง เรารอไม่ไหวที่จะเห็นสิ่งที่คุณสร้าง

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind

แพตเทิร์นให้ถอดรหัสเพิ่มเติม

บทความไวรัลล่าสุด

สำรวจบทความไวรัลเพิ่มเติม