Gemini Embedding 2 là mô hình nhúng đa phương thức gốc đầu tiên của chúng tôi, ánh xạ văn bản, hình ảnh, video, âm thanh và tài liệu vào một không gian nhúng duy nhất, cho phép truy xuất và phân loại đa phương thức trên nhiều loại phương tiện khác nhau — và hiện đã có sẵn trong bản xem trước công khai.
Hôm nay, chúng tôi phát hành Gemini Embedding 2, mô hình nhúng đa phương thức hoàn chỉnh đầu tiên được xây dựng trên kiến trúc Gemini, dưới dạng Bản xem trước công khai qua Gemini API và Vertex AI.
Mở rộng nền tảng chỉ văn bản trước đây, Gemini Embedding 2 ánh xạ văn bản, hình ảnh, video, âm thanh và tài liệu vào một không gian nhúng thống nhất duy nhất, đồng thời nắm bắt ý định ngữ nghĩa trên hơn 100 ngôn ngữ. Điều này đơn giản hóa các quy trình phức tạp và nâng cao nhiều tác vụ hạ nguồn đa phương thức—từ Tạo tăng cường truy xuất (RAG) và tìm kiếm ngữ nghĩa đến phân tích cảm xúc và phân cụm dữ liệu.
Phương thức mới và kích thước đầu ra linh hoạt
Mô hình dựa trên Gemini và tận dụng khả năng hiểu đa phương thức hàng đầu của nó để tạo ra các nhúng chất lượng cao trên:
- Văn bản: hỗ trợ ngữ cảnh mở rộng lên đến 8192 token đầu vào
- Hình ảnh: có khả năng xử lý tối đa 6 hình ảnh mỗi yêu cầu, hỗ trợ định dạng PNG và JPEG
- Video: hỗ trợ tối đa 120 giây đầu vào video ở định dạng MP4 và MOV
- Âm thanh: tiếp nhận và nhúng dữ liệu âm thanh gốc mà không cần phiên âm văn bản trung gian
- Tài liệu: nhúng trực tiếp PDF dài tối đa 6 trang
Ngoài việc xử lý từng phương thức một, mô hình này hiểu gốc đầu vào xen kẽ, vì vậy bạn có thể truyền nhiều phương thức đầu vào (ví dụ: hình ảnh + văn bản) trong một yêu cầu duy nhất. Điều này cho phép mô hình nắm bắt các mối quan hệ phức tạp, tinh tế giữa các loại phương tiện khác nhau, mở ra khả năng hiểu chính xác hơn về dữ liệu thực tế phức tạp.
0:37
Giống như các mô hình nhúng trước đây của chúng tôi, Gemini Embedding 2 tích hợp Học biểu diễn Matryoshka (MRL), một kỹ thuật "lồng" thông tin bằng cách thu nhỏ kích thước một cách linh hoạt. Điều này cho phép kích thước đầu ra linh hoạt giảm từ mặc định 3072, giúp nhà phát triển cân bằng hiệu suất và chi phí lưu trữ. Chúng tôi khuyên dùng kích thước 3072, 1536, 768 để có chất lượng cao nhất.
Hiệu suất hàng đầu
Gemini Embedding 2 không chỉ cải thiện so với các mô hình cũ. Nó thiết lập một tiêu chuẩn hiệu suất mới về độ sâu đa phương thức, giới thiệu khả năng giọng nói mạnh mẽ và vượt trội so với các mô hình hàng đầu trong các tác vụ văn bản, hình ảnh và video. Sự cải thiện có thể đo lường này và phạm vi đa phương thức độc đáo mang lại cho nhà phát triển chính xác những gì họ cần cho nhu cầu nhúng đa dạng của mình.

Khai phá ý nghĩa sâu sắc hơn cho dữ liệu
Nhúng là công nghệ hỗ trợ trải nghiệm trong nhiều sản phẩm của Google. Từ RAG, nơi nhúng có thể đóng vai trò quan trọng trong kỹ thuật ngữ cảnh, đến quản lý dữ liệu quy mô lớn và tìm kiếm/phân tích cổ điển, một số đối tác truy cập sớm của chúng tôi đã sử dụng Gemini Embedding 2 để khai phá các ứng dụng đa phương thức giá trị cao:
*"Chúng tôi đã chọn nhúng Gemini để giúp các chuyên gia pháp lý tìm thông tin quan trọng trong quá trình khám phá vụ kiện — một thách thức kỹ thuật cao trong bối cảnh rủi ro lớn, và là lĩnh vực Gemini vượt trội. Trong các thử nghiệm gần đây nhất, mô hình nhúng đa phương thức của Gemini cải thiện độ chính xác và khả năng truy xuất trên hàng triệu bản ghi, đồng thời mở ra chức năng tìm kiếm mạnh mẽ mới cho hình ảnh và video. Đối với các chuyên gia pháp lý, những khả năng mới này mở ra những cách hoàn toàn mới để nhanh chóng hiểu tài liệu vụ án ngay cả trong những vụ việc lớn nhất."
*
**Max Christoff
CTO
Everlaw**
"Gemini Embedding 2 là nền tảng cho Công cụ Bình đẳng Kinh tế Người sáng tạo của Sparkonomy. Tính đa phương thức gốc của nó giảm độ trễ của chúng tôi tới 70% bằng cách loại bỏ suy luận LLM và gần như tăng gấp đôi điểm tương đồng ngữ nghĩa cho các cặp văn bản-hình ảnh và văn bản-video—nhảy từ 0,4 lên 0,8. Điều này hỗ trợ Bộ gen Người sáng tạo độc quyền của chúng tôi để lập chỉ mục hàng triệu phút video, cùng với hình ảnh và văn bản, với độ chính xác chưa từng có—mở ra các hợp tác thương hiệu không thiên vị và dân chủ hóa thành công kinh tế cho mọi người sáng tạo."
**Guneet Singh
Đồng sáng lập
Sparkonomy**
"Tính liên tục của API rất tuyệt vời. Gemini Embedding 2 tích hợp ngay vào quy trình làm việc hiện tại của chúng tôi với những thay đổi tối thiểu. Chúng tôi đang thử nghiệm những cách mới để nhúng ký ức hội thoại dựa trên văn bản cùng với nhúng âm thanh và hình ảnh, đặc biệt là các cặp câu hỏi và trả lời của trợ lý, và thấy mức tăng 20% trong khả năng truy xuất top-1 cho ứng dụng sức khỏe cá nhân của chúng tôi."
**Ertuğrul Çavuşoğlu
Đồng sáng lập
Mindlid**
Bắt đầu xây dựng ngay hôm nay
Bắt đầu với mô hình Gemini Embedding 2 qua Gemini API hoặc Vertex AI.
1from google import genai2from google.genai import types34# For Vertex AI:5# PROJECT_ID='<add_here>'6# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')78client = genai.Client()910with open("example.png", "rb") as f:11 image_bytes = f.read()1213with open("sample.mp3", "rb") as f:14 audio_bytes = f.read()1516# Embed text, image, and audio17result = client.models.embed_content(18 model="gemini-embedding-2-preview",19 contents=[20 "What is the meaning of life?",21 types.Part.from_bytes(22 data=image_bytes,23 mime_type="image/png",24 ),25 types.Part.from_bytes(26 data=audio_bytes,27 mime_type="audio/mpeg",28 ),29 ],30)3132print(result.embeddings)
Tìm hiểu cách sử dụng mô hình trong các sổ tay Colab tương tác Gemini API và Vertex AI của chúng tôi. Bạn cũng có thể sử dụng nó qua LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB và Vector Search.
Bằng cách mang ý nghĩa ngữ nghĩa đến dữ liệu đa dạng xung quanh chúng ta, Gemini Embedding 2 cung cấp nền tảng đa phương thức thiết yếu cho kỷ nguyên tiếp theo của các trải nghiệm AI tiên tiến. Chúng tôi rất mong chờ được thấy những gì bạn xây dựng.






