Gemini Embedding 2：我們首款原生多模態嵌入模型

Gemini Embedding 2 是我們首款原生多模態嵌入模型，能將文字、圖片、影片、音訊和文件映射到單一嵌入空間，實現跨不同媒體類型的多模態檢索與分類——目前已於公開預覽版中提供。

今天我們正式推出 Gemini Embedding 2，這是我們基於 Gemini 架構打造的首款完整多模態嵌入模型，已透過 Gemini API 和 Vertex AI 提供公開預覽版。

相較於我們先前僅支援文字的基礎模型，Gemini Embedding 2 能將文字、圖片、影片、音訊和文件映射到單一統一的嵌入空間，並捕捉超過 100 種語言的語義意圖。這簡化了複雜的處理流程，並強化了多種多模態下游任務——從檢索增強生成（RAG）和語義搜尋，到情感分析和資料聚類。

全新模態與靈活的輸出維度

此模型基於 Gemini，並運用其頂尖的多模態理解能力，在以下領域建立高品質嵌入：

文字： 支援高達 8192 個輸入 token 的廣闊上下文
圖片： 每次請求最多可處理 6 張圖片，支援 PNG 和 JPEG 格式
影片： 支援最長 120 秒的影片輸入，格式為 MP4 和 MOV
音訊： 原生攝入並嵌入音訊資料，無需中間文字轉錄
文件： 直接嵌入最長 6 頁的 PDF

除了每次處理單一模態外，此模型原生理解交錯輸入，因此您可以在單一請求中傳遞多種模態的輸入（例如圖片 + 文字）。這讓模型能夠捕捉不同媒體類型之間複雜細微的關係，從而更準確地理解真實世界的複雜資料。

0:37

與我們先前的嵌入模型一樣，Gemini Embedding 2 採用了 Matryoshka Representation Learning（MRL）技術，這是一種透過動態縮小維度來「嵌套」資訊的技術。這使得輸出維度能夠從預設的 3072 靈活縮小，讓開發者可以在效能與儲存成本之間取得平衡。我們建議使用 3072、1536、768 維度以獲得最高品質。

最先進的效能

Gemini Embedding 2 不僅僅是對舊模型的改進。它為多模態深度建立了新的效能標準，引入了強大的語音能力，並在文字、圖片和影片任務上超越領先模型。這種可衡量的改進和獨特的多模態覆蓋範圍，為開發者提供了滿足其多樣化嵌入需求所需的一切。

為資料解鎖更深層的意義

嵌入技術是許多 Google 產品體驗的基礎。從 RAG（嵌入在情境工程中扮演關鍵角色）到大規模資料管理以及經典的搜尋/分析，我們的一些早期存取合作夥伴已經在使用 Gemini Embedding 2 來解鎖高價值的多模態應用：

*「我們選擇 Gemini 嵌入來幫助法律專業人員在訴訟的發現過程中找到關鍵資訊——這是一項高風險環境中的高度技術挑戰，而 Gemini 在此領域表現出色。在我們最新的測試中，Gemini 的多模態嵌入模型在數百萬筆記錄中提升了精確度與召回率，同時為圖片和影片解鎖了強大的新搜尋功能。對法律專業人員來說，這些新能力開啟了全新的方式，讓他們即使在最龐大的案件中也能快速理解案件材料。」

*

**Max Christoff

技術長

Everlaw**

「Gemini Embedding 2 是 Sparkonomy 創作者經濟平等引擎的基礎。其原生多模態能力將我們的延遲降低了高達 70%（透過移除 LLM 推論），並將文字-圖片和文字-影片對的語義相似度分數從 0.4 躍升至 0.8。這驅動了我們專有的 Creator Genome，以前所未有的精確度索引數百萬分鐘的影片，以及圖片和文字——為每位創作者解鎖無偏見的品牌合作，並讓經濟成功普及化。」

**Guneet Singh

共同創辦人

Sparkonomy**

「API 的連續性非常出色。Gemini Embedding 2 幾乎無需修改就能直接融入我們現有的工作流程。我們正在測試新的方式，將基於文字的對話記憶與音訊和視覺嵌入結合，特別是助理問答對，並在我們的個人健康應用程式中看到了 top-1 召回率提升 20%。」

**Ertuğrul Çavuşoğlu

共同創辦人

Mindlid**

立即開始建構

透過 Gemini API 或 Vertex AI 開始使用 Gemini Embedding 2 模型。

python

1from google import genai
2from google.genai import types
3
4# For Vertex AI:
5# PROJECT_ID='<add_here>'
6# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')
7
8client = genai.Client()
9
10with open("example.png", "rb") as f:
11    image_bytes = f.read()
12
13with open("sample.mp3", "rb") as f:
14    audio_bytes = f.read()
15
16# Embed text, image, and audio
17result = client.models.embed_content(
18    model="gemini-embedding-2-preview",
19    contents=[
20        "What is the meaning of life?",
21        types.Part.from_bytes(
22            data=image_bytes,
23            mime_type="image/png",
24        ),
25        types.Part.from_bytes(
26            data=audio_bytes,
27            mime_type="audio/mpeg",
28        ),
29    ],
30)
31
32print(result.embeddings)

了解如何在我們的互動式 Gemini API 和 Vertex AI Colab 筆記本中使用此模型。您也可以透過 LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB 和 Vector Search 來使用它。

透過為我們周圍多樣化的資料帶來語義意義，Gemini Embedding 2 為下一代先進 AI 體驗提供了必要的多模態基礎。我們迫不及待想看到您將建構出什麼。

全新模態與靈活的輸出維度

最先進的效能

為資料解鎖更深層的意義

立即開始建構

使用 YouMind 深度閱讀爆款文章

近期爆款文章

如何透過 Claude Code 執行付費廣告：終極指南

滑動螢幕是低階行為

ArsenalOS™：現代國防製造的數位骨幹

ORACLE：Polymarket 官方 AI Agents 交易平台

FSD V14 LITE：我的評測

木星於 2026 年 6 月 30 日進入獅子座：如何把握你的好運