Gemini Embedding 2 是我们的首个原生多模态嵌入模型,能够将文本、图像、视频、音频和文档映射到统一的嵌入空间,实现跨不同媒体类型的多模态检索与分类——现已公开预览。
今天,我们通过 Gemini API 和 Vertex AI 公开发布 Gemini Embedding 2,这是基于 Gemini 架构构建的首个完全多模态嵌入模型。
在之前纯文本基础之上,Gemini Embedding 2 将文本、图像、视频、音频和文档映射到统一的嵌入空间,并捕捉超过 100 种语言的语义意图。这简化了复杂的处理流程,并增强了多种多模态下游任务——从检索增强生成(RAG)和语义搜索,到情感分析和数据聚类。
全新模态与灵活的输出维度
该模型基于 Gemini,利用其业界领先的多模态理解能力,在以下方面创建高质量的嵌入:
- 文本:支持高达 8192 个输入 token 的扩展上下文
- 图像:每次请求最多可处理 6 张图像,支持 PNG 和 JPEG 格式
- 视频:支持最长 120 秒的视频输入,格式为 MP4 和 MOV
- 音频:原生摄取并嵌入音频数据,无需中间文本转录
- 文档:直接嵌入最长 6 页的 PDF
除了每次处理一种模态外,该模型还能原生理解交错输入,因此你可以在单个请求中传递多种模态的输入(例如图像 + 文本)。这使得模型能够捕捉不同媒体类型之间复杂而微妙的关系,从而更准确地理解复杂的真实世界数据。
0:37
与我们之前的嵌入模型一样,Gemini Embedding 2 采用了 Matryoshka 表示学习(MRL)技术,该技术通过动态缩小维度来“嵌套”信息。这使得输出维度可以从默认的 3072 灵活缩小,让开发者能够在性能和存储成本之间取得平衡。我们建议使用 3072、1536、768 维度以获得最高质量。
最先进的性能
Gemini Embedding 2 不仅改进了旧模型,还为多模态深度树立了新的性能标准。它引入了强大的语音能力,并在文本、图像和视频任务上超越了领先模型。这种可衡量的改进和独特的多模态覆盖,为开发者提供了满足多样化嵌入需求所需的一切。

为数据解锁更深层的意义
嵌入技术是许多 Google 产品体验背后的驱动力。从 RAG(嵌入在上下文工程中发挥关键作用)到大规模数据管理以及经典的搜索/分析,我们的一些早期访问合作伙伴已经在使用 Gemini Embedding 2 来解锁高价值的多模态应用:
*"我们选择 Gemini 嵌入来帮助法律专业人士在诉讼中发现过程中找到关键信息——这是一个高风险环境中的高难度挑战,而 Gemini 恰好擅长于此。在我们最近的测试中,Gemini 的多模态嵌入模型在数百万条记录中提高了精确率和召回率,同时为图像和视频解锁了强大的新搜索功能。对于法律专业人士来说,这些新能力开辟了全新的方式,即使在最庞大的案件中也能快速理解案件材料。"
*
**Max Christoff
CTO
Everlaw**
"Gemini Embedding 2 是 Sparkonomy 创作者经济平等引擎的基础。其原生多模态能力通过消除 LLM 推理,将我们的延迟降低了高达 70%,并将文本-图像和文本-视频对的语义相似度得分几乎翻倍——从 0.4 跃升至 0.8。这为我们的专有创作者基因组提供了动力,以前所未有的精度索引数百万分钟的视频以及图像和文本——解锁无偏见的品牌合作,并为每位创作者实现经济成功的民主化。"
**Guneet Singh
联合创始人
Sparkonomy**
"API 的连续性非常出色。Gemini Embedding 2 几乎无需改动就能直接融入我们现有的工作流程。我们正在测试将基于文本的对话记忆与音频和视觉嵌入相结合的新方法,特别是助手问答对,并在我们的个人健康应用中看到了 top-1 召回率提升了 20%。"
**Ertuğrul Çavuşoğlu
联合创始人
Mindlid**
立即开始构建
通过 Gemini API 或 Vertex AI 开始使用 Gemini Embedding 2 模型。
1from google import genai2from google.genai import types34# 对于 Vertex AI:5# PROJECT_ID='<add_here>'6# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')78client = genai.Client()910with open("example.png", "rb") as f:11 image_bytes = f.read()1213with open("sample.mp3", "rb") as f:14 audio_bytes = f.read()1516# 嵌入文本、图像和音频17result = client.models.embed_content(18 model="gemini-embedding-2-preview",19 contents=[20 "生命的意义是什么?",21 types.Part.from_bytes(22 data=image_bytes,23 mime_type="image/png",24 ),25 types.Part.from_bytes(26 data=audio_bytes,27 mime_type="audio/mpeg",28 ),29 ],30)3132print(result.embeddings)
在我们的交互式 Gemini API 和 Vertex AI Colab 笔记本中了解如何使用该模型。你也可以通过 LangChain、LlamaIndex、Haystack、Weaviate、QDrant、ChromaDB 和 Vector Search 使用它。
通过为周围多样化的数据赋予语义含义,Gemini Embedding 2 为下一代先进 AI 体验提供了必要的多模态基础。我们迫不及待地想看到你的构建成果。






