Gemini Embedding 2:我們首款原生多模態嵌入模型

@GoogleAIStudio
英語4 個月前 · 2026年3月10日
4.6M
11.3K
1.3K
260
9.3K

TL;DR

Gemini Embedding 2 是 Google 首款原生多模態嵌入模型,能夠在文字、影片與音訊之間實現無縫檢索,並具備靈活的維度設定與超過 100 種語言的支援。

Gemini Embedding 2 是我們首款原生多模態嵌入模型,能將文字、圖片、影片、音訊和文件映射到單一嵌入空間,實現跨不同媒體類型的多模態檢索與分類——目前已於公開預覽版中提供。

今天我們正式推出 Gemini Embedding 2,這是我們基於 Gemini 架構打造的首款完整多模態嵌入模型,已透過 Gemini APIVertex AI 提供公開預覽版。

相較於我們先前僅支援文字的基礎模型,Gemini Embedding 2 能將文字、圖片、影片、音訊和文件映射到單一統一的嵌入空間,並捕捉超過 100 種語言的語義意圖。這簡化了複雜的處理流程,並強化了多種多模態下游任務——從檢索增強生成(RAG)和語義搜尋,到情感分析和資料聚類。

全新模態與靈活的輸出維度

此模型基於 Gemini,並運用其頂尖的多模態理解能力,在以下領域建立高品質嵌入:

  • 文字: 支援高達 8192 個輸入 token 的廣闊上下文
  • 圖片: 每次請求最多可處理 6 張圖片,支援 PNG 和 JPEG 格式
  • 影片: 支援最長 120 秒的影片輸入,格式為 MP4 和 MOV
  • 音訊: 原生攝入並嵌入音訊資料,無需中間文字轉錄
  • 文件: 直接嵌入最長 6 頁的 PDF

除了每次處理單一模態外,此模型原生理解交錯輸入,因此您可以在單一請求中傳遞多種模態的輸入(例如圖片 + 文字)。這讓模型能夠捕捉不同媒體類型之間複雜細微的關係,從而更準確地理解真實世界的複雜資料。

Google AI Studio - inline image

0:37

與我們先前的嵌入模型一樣,Gemini Embedding 2 採用了 Matryoshka Representation Learning(MRL)技術,這是一種透過動態縮小維度來「嵌套」資訊的技術。這使得輸出維度能夠從預設的 3072 靈活縮小,讓開發者可以在效能與儲存成本之間取得平衡。我們建議使用 3072、1536、768 維度以獲得最高品質。

最先進的效能

Gemini Embedding 2 不僅僅是對舊模型的改進。它為多模態深度建立了新的效能標準,引入了強大的語音能力,並在文字、圖片和影片任務上超越領先模型。這種可衡量的改進和獨特的多模態覆蓋範圍,為開發者提供了滿足其多樣化嵌入需求所需的一切。

Google AI Studio - inline image

為資料解鎖更深層的意義

嵌入技術是許多 Google 產品體驗的基礎。從 RAG(嵌入在情境工程中扮演關鍵角色)到大規模資料管理以及經典的搜尋/分析,我們的一些早期存取合作夥伴已經在使用 Gemini Embedding 2 來解鎖高價值的多模態應用:

*「我們選擇 Gemini 嵌入來幫助法律專業人員在訴訟的發現過程中找到關鍵資訊——這是一項高風險環境中的高度技術挑戰,而 Gemini 在此領域表現出色。在我們最新的測試中,Gemini 的多模態嵌入模型在數百萬筆記錄中提升了精確度與召回率,同時為圖片和影片解鎖了強大的新搜尋功能。對法律專業人員來說,這些新能力開啟了全新的方式,讓他們即使在最龐大的案件中也能快速理解案件材料。」

*



**Max Christoff

技術長

Everlaw**

「Gemini Embedding 2 是 Sparkonomy 創作者經濟平等引擎的基礎。其原生多模態能力將我們的延遲降低了高達 70%(透過移除 LLM 推論),並將文字-圖片和文字-影片對的語義相似度分數從 0.4 躍升至 0.8。這驅動了我們專有的 Creator Genome,以前所未有的精確度索引數百萬分鐘的影片,以及圖片和文字——為每位創作者解鎖無偏見的品牌合作,並讓經濟成功普及化。」



**Guneet Singh

共同創辦人

Sparkonomy**

「API 的連續性非常出色。Gemini Embedding 2 幾乎無需修改就能直接融入我們現有的工作流程。我們正在測試新的方式,將基於文字的對話記憶與音訊和視覺嵌入結合,特別是助理問答對,並在我們的個人健康應用程式中看到了 top-1 召回率提升 20%。」



**Ertuğrul Çavuşoğlu

共同創辦人

Mindlid**

立即開始建構

透過 Gemini APIVertex AI 開始使用 Gemini Embedding 2 模型。

python
1from google import genai
2from google.genai import types
3
4# For Vertex AI:
5# PROJECT_ID='<add_here>'
6# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')
7
8client = genai.Client()
9
10with open("example.png", "rb") as f:
11 image_bytes = f.read()
12
13with open("sample.mp3", "rb") as f:
14 audio_bytes = f.read()
15
16# Embed text, image, and audio
17result = client.models.embed_content(
18 model="gemini-embedding-2-preview",
19 contents=[
20 "What is the meaning of life?",
21 types.Part.from_bytes(
22 data=image_bytes,
23 mime_type="image/png",
24 ),
25 types.Part.from_bytes(
26 data=audio_bytes,
27 mime_type="audio/mpeg",
28 ),
29 ],
30)
31
32print(result.embeddings)

了解如何在我們的互動式 Gemini APIVertex AI Colab 筆記本中使用此模型。您也可以透過 LangChainLlamaIndexHaystackWeaviateQDrantChromaDBVector Search 來使用它。

透過為我們周圍多樣化的資料帶來語義意義,Gemini Embedding 2 為下一代先進 AI 體驗提供了必要的多模態基礎。我們迫不及待想看到您將建構出什麼。

存到 YouMind

使用 YouMind 深度閱讀爆款文章

保存原文、追問細節、總結觀點,並在一個 AI 工作空間裡把爆款文章沉澱成可複用筆記。

了解 YouMind

更多可拆解樣本

近期爆款文章

探索更多爆款文章