Gemini Embedding 2: Nosso primeiro modelo de embedding nativamente multimodal

@GoogleAIStudio
INGLÊShá 4 meses · 10/03/2026
4.6M
11.3K
1.3K
260
9.3K

TL;DR

O Gemini Embedding 2 é o primeiro modelo de embedding nativamente multimodal do Google, permitindo uma recuperação integrada entre texto, vídeo e áudio, com dimensões flexíveis e suporte para mais de 100 idiomas.

O Gemini Embedding 2 é nosso primeiro modelo de embedding nativamente multimodal que mapeia texto, imagens, vídeo, áudio e documentos em um único espaço de embedding, permitindo recuperação e classificação multimodal em diferentes tipos de mídia — e já está disponível em pré-visualização pública.

Hoje estamos lançando o Gemini Embedding 2, nosso primeiro modelo de embedding totalmente multimodal construído sobre a arquitetura Gemini, em Pré-visualização Pública via Gemini API e Vertex AI.

Expandindo nossa base anterior apenas de texto, o Gemini Embedding 2 mapeia texto, imagens, vídeos, áudio e documentos em um único espaço de embedding unificado, e captura a intenção semântica em mais de 100 idiomas. Isso simplifica pipelines complexos e aprimora uma ampla variedade de tarefas multimodais downstream — desde Geração Aumentada por Recuperação (RAG) e busca semântica até análise de sentimentos e agrupamento de dados.

Novas modalidades e dimensões de saída flexíveis

O modelo é baseado no Gemini e aproveita suas capacidades de compreensão multimodal de ponta para criar embeddings de alta qualidade em:

  • Texto: suporta um contexto extenso de até 8192 tokens de entrada
  • Imagens: capaz de processar até 6 imagens por requisição, suportando formatos PNG e JPEG
  • Vídeos: suporta até 120 segundos de entrada de vídeo nos formatos MP4 e MOV
  • Áudio: ingere e incorpora dados de áudio nativamente, sem necessidade de transcrições de texto intermediárias
  • Documentos: incorpora PDFs diretamente com até 6 páginas

Além de processar uma modalidade por vez, este modelo entende nativamente entrada intercalada, permitindo que você passe múltiplas modalidades de entrada (ex.: imagem + texto) em uma única requisição. Isso permite que o modelo capture as relações complexas e sutis entre diferentes tipos de mídia, desbloqueando uma compreensão mais precisa de dados complexos do mundo real.

Google AI Studio - inline image

0:37

Assim como nossos modelos de embedding anteriores, o Gemini Embedding 2 incorpora o Aprendizado de Representação Matryoshka (MRL), uma técnica que "aninha" informações ao reduzir dinamicamente as dimensões. Isso permite dimensões de saída flexíveis, reduzindo do padrão de 3072 para que desenvolvedores possam equilibrar desempenho e custos de armazenamento. Recomendamos usar dimensões de 3072, 1536, 768 para a mais alta qualidade.

Desempenho de ponta

O Gemini Embedding 2 não apenas melhora modelos legados. Ele estabelece um novo padrão de desempenho para profundidade multimodal, introduzindo fortes capacidades de fala e superando modelos líderes em tarefas de texto, imagem e vídeo. Essa melhoria mensurável e cobertura multimodal única dão aos desenvolvedores exatamente o que precisam para suas diversas necessidades de embedding.

Google AI Studio - inline image

Desbloqueando significado mais profundo para dados

Embeddings são a tecnologia que impulsiona experiências em muitos produtos do Google. Desde RAG, onde embeddings podem desempenhar um papel crucial na engenharia de contexto, até gerenciamento de dados em larga escala e busca/análise clássica, alguns de nossos parceiros de acesso antecipado já estão usando o Gemini Embedding 2 para desbloquear aplicações multimodais de alto valor:

"Escolhemos os embeddings do Gemini para ajudar profissionais jurídicos a encontrar informações críticas durante o processo de descoberta em litígios — um desafio altamente técnico em um ambiente de alto risco, e no qual o Gemini se destaca. Em nossos testes mais recentes, o modelo de embedding multimodal do Gemini melhora a precisão e o recall em milhões de registros, enquanto desbloqueia novas funcionalidades de busca poderosas para imagens e vídeos. Para profissionais jurídicos, essas novas capacidades abrem maneiras totalmente inovadoras de entender rapidamente os materiais do caso, mesmo nos maiores processos."




Max Christoff

CTO

Everlaw**

"O Gemini Embedding 2 é a base do Motor de Igualdade Econômica para Criadores da Sparkonomy. Sua multimodalidade nativa reduz nossa latência em até 70% ao eliminar a inferência de LLM e quase dobra as pontuações de similaridade semântica para pares texto-imagem e texto-vídeo — saltando de 0,4 para 0,8. Isso alimenta nosso Genoma do Criador proprietário para indexar milhões de minutos de vídeo, junto com imagens e texto, com precisão sem precedentes — desbloqueando colaborações de marca imparciais e democratizando o sucesso econômico para todo criador."



Guneet Singh

Co-fundador

Sparkonomy**

"A continuidade da API é excelente. O Gemini Embedding 2 se encaixa perfeitamente em nosso fluxo de trabalho existente com mudanças mínimas. Estamos testando novas maneiras de incorporar memórias conversacionais baseadas em texto junto com embeddings de áudio e visuais, especialmente pares de perguntas e respostas de assistentes, e vendo um aumento de 20% no recall top-1 para nosso aplicativo de bem-estar pessoal."



Ertuğrul Çavuşoğlu

Co-fundador

Mindlid**

Comece a construir hoje

Comece com o modelo Gemini Embedding 2 através do Gemini API ou Vertex AI.

python
1from google import genai
2from google.genai import types
3
4# Para Vertex AI:
5# PROJECT_ID='<add_here>'
6# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')
7
8client = genai.Client()
9
10with open("example.png", "rb") as f:
11 image_bytes = f.read()
12
13with open("sample.mp3", "rb") as f:
14 audio_bytes = f.read()
15
16# Incorporar texto, imagem e áudio
17result = client.models.embed_content(
18 model="gemini-embedding-2-preview",
19 contents=[
20 "What is the meaning of life?",
21 types.Part.from_bytes(
22 data=image_bytes,
23 mime_type="image/png",
24 ),
25 types.Part.from_bytes(
26 data=audio_bytes,
27 mime_type="audio/mpeg",
28 ),
29 ],
30)
31
32print(result.embeddings)

Aprenda a usar o modelo em nossos notebooks interativos do Colab para Gemini API e Vertex AI. Você também pode usá-lo através de LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB e Vector Search.

Ao trazer significado semântico para os diversos dados ao nosso redor, o Gemini Embedding 2 fornece a base multimodal essencial para a próxima era de experiências avançadas de IA. Mal podemos esperar para ver o que você vai construir.

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind

Mais padrões para decifrar

Artigos virais recentes

Explorar mais artigos virais