Gemini Embedding 2: Nosso primeiro modelo de embedding nativamente multimodal

@GoogleAIStudio
INGLÊShá 4 meses · 10 de mar. de 2026
4.6M
11.3K
1.3K
260
9.3K

TL;DR

O Gemini Embedding 2 é o primeiro modelo de embedding nativamente multimodal do Google, permitindo uma recuperação integrada entre texto, vídeo e áudio, com dimensões flexíveis e suporte para mais de 100 idiomas.

O Gemini Embedding 2 é o nosso primeiro modelo de incorporação nativamente multimodal que mapeia texto, imagens, vídeo, áudio e documentos em um único espaço de incorporação, permitindo recuperação multimodal e classificação entre diferentes tipos de mídia — e está disponível agora em prévia pública.

Hoje estamos lançando o Gemini Embedding 2, nosso primeiro modelo de incorporação totalmente multimodal construído na arquitetura Gemini, em Prévia Pública através da Gemini API e do Vertex AI.

Expandindo nossa base anterior apenas de texto, o Gemini Embedding 2 mapeia texto, imagens, vídeos, áudio e documentos em um único espaço de incorporação unificado e captura a intenção semântica em mais de 100 idiomas. Isso simplifica pipelines complexos e aprimora uma ampla variedade de tarefas multimodais downstream — desde Geração Aumentada por Recuperação (RAG) e busca semântica até análise de sentimentos e agrupamento de dados.

Novas modalidades e dimensões de saída flexíveis

O modelo é baseado no Gemini e aproveita suas melhores capacidades de compreensão multimodal da categoria para criar incorporações de alta qualidade em:

  • Texto: suporta um contexto extenso de até 8192 tokens de entrada
  • Imagens: capaz de processar até 6 imagens por requisição, suportando formatos PNG e JPEG
  • Vídeos: suporta até 120 segundos de entrada de vídeo nos formatos MP4 e MOV
  • Áudio: ingere e incorpora dados de áudio nativamente, sem precisar de transcrições de texto intermediárias
  • Documentos: incorpora PDFs diretamente com até 6 páginas de extensão

Além de processar uma modalidade por vez, este modelo entende nativamente entrada intercalada, permitindo que você passe múltiplas modalidades de entrada (ex.: imagem + texto) em uma única requisição. Isso permite que o modelo capture as relações complexas e nuances entre diferentes tipos de mídia, desbloqueando uma compreensão mais precisa de dados complexos do mundo real.

Google AI Studio - inline image

0:37

Assim como nossos modelos de incorporação anteriores, o Gemini Embedding 2 incorpora Aprendizado de Representação Matryoshka (MRL), uma técnica que "aninha" informações ao reduzir dinamicamente as dimensões. Isso permite dimensões de saída flexíveis, reduzindo a partir do padrão de 3072 para que desenvolvedores possam equilibrar desempenho e custos de armazenamento. Recomendamos usar as dimensões 3072, 1536, 768 para a mais alta qualidade.

Desempenho de ponta

O Gemini Embedding 2 não apenas melhora modelos legados. Ele estabelece um novo padrão de desempenho para profundidade multimodal, introduzindo fortes capacidades de fala e superando modelos líderes em tarefas de texto, imagem e vídeo. Essa melhoria mensurável e cobertura multimodal única dão aos desenvolvedores exatamente o que precisam para suas diversas necessidades de incorporação.

Google AI Studio - inline image

Desbloqueando significados mais profundos para dados

Incorporações são a tecnologia que alimentam experiências em muitos produtos Google. Desde RAG, onde incorporações podem desempenhar um papel crucial na engenharia de contexto, até gerenciamento de dados em larga escala e busca/análise clássica, alguns de nossos parceiros de acesso antecipado já estão usando o Gemini Embedding 2 para desbloquear aplicações multimodais de alto valor:

*"Escolhemos as incorporações do Gemini para ajudar profissionais do direito a encontrar informações críticas durante o processo de descoberta em litígios — um desafio altamente técnico em um ambiente de alto risco, e no qual o Gemini se destaca. Em nossos testes mais recentes, o modelo de incorporação multimodal do Gemini melhora a precisão e a revocação em milhões de registros, ao mesmo tempo que desbloqueia nova funcionalidade de busca poderosa para imagens e vídeos. Para profissionais do direito, essas novas capacidades abrem maneiras totalmente inovadoras de entender rapidamente os materiais do caso, mesmo nos maiores processos."

*



**Max Christoff

CTO

Everlaw**

"O Gemini Embedding 2 é a base para o Motor de Igualdade Econômica de Criadores da Sparkonomy. Sua multimodalidade nativa reduz nossa latência em até 70% ao remover a inferência de LLM e quase dobra as pontuações de similaridade semântica para pares texto-imagem e texto-vídeo — saltando de 0,4 para 0,8. Isso potencializa nosso Creator Genome proprietário para indexar milhões de minutos de vídeo, juntamente com imagens e texto, com precisão sem precedentes — desbloqueando colaborações de marca imparciais e democratizando o sucesso econômico para todo criador."



**Guneet Singh

Co-fundador

Sparkonomy**

"A continuidade da API é excelente. O Gemini Embedding 2 se encaixa perfeitamente em nosso fluxo de trabalho existente com mudanças mínimas. Estamos testando novas maneiras de incorporar memórias textuais de conversas junto com incorporações de áudio e visuais, especialmente pares de perguntas e respostas de assistentes, e vendo um aumento de 20% na revocação top-1 para nosso aplicativo de bem-estar pessoal."



**Ertuğrul Çavuşoğlu

Co-fundador

Mindlid**

Comece a construir hoje

Comece com o modelo Gemini Embedding 2 através da Gemini API ou do Vertex AI.

python
1from google import genai
2from google.genai import types
3
4# For Vertex AI:
5# PROJECT_ID='<add_here>'
6# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')
7
8client = genai.Client()
9
10with open("example.png", "rb") as f:
11 image_bytes = f.read()
12
13with open("sample.mp3", "rb") as f:
14 audio_bytes = f.read()
15
16# Embed text, image, and audio
17result = client.models.embed_content(
18 model="gemini-embedding-2-preview",
19 contents=[
20 "What is the meaning of life?",
21 types.Part.from_bytes(
22 data=image_bytes,
23 mime_type="image/png",
24 ),
25 types.Part.from_bytes(
26 data=audio_bytes,
27 mime_type="audio/mpeg",
28 ),
29 ],
30)
31
32print(result.embeddings)

Aprenda a usar o modelo em nossos notebooks interativos de Colab Gemini API e Vertex AI. Você também pode usá-lo através de LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB e Vector Search.

Ao trazer significado semântico para os diversos dados ao nosso redor, o Gemini Embedding 2 fornece a base multimodal essencial para a próxima era de experiências avançadas de IA. Mal podemos esperar para ver o que você vai construir.

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind

Mais padrões para decifrar

Artigos virais recentes

Explorar mais artigos virais