O Gemini Embedding 2 é o nosso primeiro modelo de incorporação nativamente multimodal que mapeia texto, imagens, vídeo, áudio e documentos em um único espaço de incorporação, permitindo recuperação multimodal e classificação entre diferentes tipos de mídia — e está disponível agora em prévia pública.
Hoje estamos lançando o Gemini Embedding 2, nosso primeiro modelo de incorporação totalmente multimodal construído na arquitetura Gemini, em Prévia Pública através da Gemini API e do Vertex AI.
Expandindo nossa base anterior apenas de texto, o Gemini Embedding 2 mapeia texto, imagens, vídeos, áudio e documentos em um único espaço de incorporação unificado e captura a intenção semântica em mais de 100 idiomas. Isso simplifica pipelines complexos e aprimora uma ampla variedade de tarefas multimodais downstream — desde Geração Aumentada por Recuperação (RAG) e busca semântica até análise de sentimentos e agrupamento de dados.
Novas modalidades e dimensões de saída flexíveis
O modelo é baseado no Gemini e aproveita suas melhores capacidades de compreensão multimodal da categoria para criar incorporações de alta qualidade em:
- Texto: suporta um contexto extenso de até 8192 tokens de entrada
- Imagens: capaz de processar até 6 imagens por requisição, suportando formatos PNG e JPEG
- Vídeos: suporta até 120 segundos de entrada de vídeo nos formatos MP4 e MOV
- Áudio: ingere e incorpora dados de áudio nativamente, sem precisar de transcrições de texto intermediárias
- Documentos: incorpora PDFs diretamente com até 6 páginas de extensão
Além de processar uma modalidade por vez, este modelo entende nativamente entrada intercalada, permitindo que você passe múltiplas modalidades de entrada (ex.: imagem + texto) em uma única requisição. Isso permite que o modelo capture as relações complexas e nuances entre diferentes tipos de mídia, desbloqueando uma compreensão mais precisa de dados complexos do mundo real.
0:37
Assim como nossos modelos de incorporação anteriores, o Gemini Embedding 2 incorpora Aprendizado de Representação Matryoshka (MRL), uma técnica que "aninha" informações ao reduzir dinamicamente as dimensões. Isso permite dimensões de saída flexíveis, reduzindo a partir do padrão de 3072 para que desenvolvedores possam equilibrar desempenho e custos de armazenamento. Recomendamos usar as dimensões 3072, 1536, 768 para a mais alta qualidade.
Desempenho de ponta
O Gemini Embedding 2 não apenas melhora modelos legados. Ele estabelece um novo padrão de desempenho para profundidade multimodal, introduzindo fortes capacidades de fala e superando modelos líderes em tarefas de texto, imagem e vídeo. Essa melhoria mensurável e cobertura multimodal única dão aos desenvolvedores exatamente o que precisam para suas diversas necessidades de incorporação.

Desbloqueando significados mais profundos para dados
Incorporações são a tecnologia que alimentam experiências em muitos produtos Google. Desde RAG, onde incorporações podem desempenhar um papel crucial na engenharia de contexto, até gerenciamento de dados em larga escala e busca/análise clássica, alguns de nossos parceiros de acesso antecipado já estão usando o Gemini Embedding 2 para desbloquear aplicações multimodais de alto valor:
*"Escolhemos as incorporações do Gemini para ajudar profissionais do direito a encontrar informações críticas durante o processo de descoberta em litígios — um desafio altamente técnico em um ambiente de alto risco, e no qual o Gemini se destaca. Em nossos testes mais recentes, o modelo de incorporação multimodal do Gemini melhora a precisão e a revocação em milhões de registros, ao mesmo tempo que desbloqueia nova funcionalidade de busca poderosa para imagens e vídeos. Para profissionais do direito, essas novas capacidades abrem maneiras totalmente inovadoras de entender rapidamente os materiais do caso, mesmo nos maiores processos."
*
**Max Christoff
CTO
Everlaw**
"O Gemini Embedding 2 é a base para o Motor de Igualdade Econômica de Criadores da Sparkonomy. Sua multimodalidade nativa reduz nossa latência em até 70% ao remover a inferência de LLM e quase dobra as pontuações de similaridade semântica para pares texto-imagem e texto-vídeo — saltando de 0,4 para 0,8. Isso potencializa nosso Creator Genome proprietário para indexar milhões de minutos de vídeo, juntamente com imagens e texto, com precisão sem precedentes — desbloqueando colaborações de marca imparciais e democratizando o sucesso econômico para todo criador."
**Guneet Singh
Co-fundador
Sparkonomy**
"A continuidade da API é excelente. O Gemini Embedding 2 se encaixa perfeitamente em nosso fluxo de trabalho existente com mudanças mínimas. Estamos testando novas maneiras de incorporar memórias textuais de conversas junto com incorporações de áudio e visuais, especialmente pares de perguntas e respostas de assistentes, e vendo um aumento de 20% na revocação top-1 para nosso aplicativo de bem-estar pessoal."
**Ertuğrul Çavuşoğlu
Co-fundador
Mindlid**
Comece a construir hoje
Comece com o modelo Gemini Embedding 2 através da Gemini API ou do Vertex AI.
1from google import genai2from google.genai import types34# For Vertex AI:5# PROJECT_ID='<add_here>'6# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')78client = genai.Client()910with open("example.png", "rb") as f:11 image_bytes = f.read()1213with open("sample.mp3", "rb") as f:14 audio_bytes = f.read()1516# Embed text, image, and audio17result = client.models.embed_content(18 model="gemini-embedding-2-preview",19 contents=[20 "What is the meaning of life?",21 types.Part.from_bytes(22 data=image_bytes,23 mime_type="image/png",24 ),25 types.Part.from_bytes(26 data=audio_bytes,27 mime_type="audio/mpeg",28 ),29 ],30)3132print(result.embeddings)
Aprenda a usar o modelo em nossos notebooks interativos de Colab Gemini API e Vertex AI. Você também pode usá-lo através de LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB e Vector Search.
Ao trazer significado semântico para os diversos dados ao nosso redor, o Gemini Embedding 2 fornece a base multimodal essencial para a próxima era de experiências avançadas de IA. Mal podemos esperar para ver o que você vai construir.






