Gemini Embedding 2: Nosso primeiro modelo de embedding nativamente multimodal

O Gemini Embedding 2 é nosso primeiro modelo de embedding nativamente multimodal que mapeia texto, imagens, vídeo, áudio e documentos em um único espaço de embedding, permitindo recuperação e classificação multimodal em diferentes tipos de mídia — e já está disponível em pré-visualização pública.

Hoje estamos lançando o Gemini Embedding 2, nosso primeiro modelo de embedding totalmente multimodal construído sobre a arquitetura Gemini, em Pré-visualização Pública via Gemini API e Vertex AI.

Expandindo nossa base anterior apenas de texto, o Gemini Embedding 2 mapeia texto, imagens, vídeos, áudio e documentos em um único espaço de embedding unificado, e captura a intenção semântica em mais de 100 idiomas. Isso simplifica pipelines complexos e aprimora uma ampla variedade de tarefas multimodais downstream — desde Geração Aumentada por Recuperação (RAG) e busca semântica até análise de sentimentos e agrupamento de dados.

Novas modalidades e dimensões de saída flexíveis

O modelo é baseado no Gemini e aproveita suas capacidades de compreensão multimodal de ponta para criar embeddings de alta qualidade em:

Texto: suporta um contexto extenso de até 8192 tokens de entrada
Imagens: capaz de processar até 6 imagens por requisição, suportando formatos PNG e JPEG
Vídeos: suporta até 120 segundos de entrada de vídeo nos formatos MP4 e MOV
Áudio: ingere e incorpora dados de áudio nativamente, sem necessidade de transcrições de texto intermediárias
Documentos: incorpora PDFs diretamente com até 6 páginas

Além de processar uma modalidade por vez, este modelo entende nativamente entrada intercalada, permitindo que você passe múltiplas modalidades de entrada (ex.: imagem + texto) em uma única requisição. Isso permite que o modelo capture as relações complexas e sutis entre diferentes tipos de mídia, desbloqueando uma compreensão mais precisa de dados complexos do mundo real.

0:37

Assim como nossos modelos de embedding anteriores, o Gemini Embedding 2 incorpora o Aprendizado de Representação Matryoshka (MRL), uma técnica que "aninha" informações ao reduzir dinamicamente as dimensões. Isso permite dimensões de saída flexíveis, reduzindo do padrão de 3072 para que desenvolvedores possam equilibrar desempenho e custos de armazenamento. Recomendamos usar dimensões de 3072, 1536, 768 para a mais alta qualidade.

Desempenho de ponta

O Gemini Embedding 2 não apenas melhora modelos legados. Ele estabelece um novo padrão de desempenho para profundidade multimodal, introduzindo fortes capacidades de fala e superando modelos líderes em tarefas de texto, imagem e vídeo. Essa melhoria mensurável e cobertura multimodal única dão aos desenvolvedores exatamente o que precisam para suas diversas necessidades de embedding.

Desbloqueando significado mais profundo para dados

Embeddings são a tecnologia que impulsiona experiências em muitos produtos do Google. Desde RAG, onde embeddings podem desempenhar um papel crucial na engenharia de contexto, até gerenciamento de dados em larga escala e busca/análise clássica, alguns de nossos parceiros de acesso antecipado já estão usando o Gemini Embedding 2 para desbloquear aplicações multimodais de alto valor:

"Escolhemos os embeddings do Gemini para ajudar profissionais jurídicos a encontrar informações críticas durante o processo de descoberta em litígios — um desafio altamente técnico em um ambiente de alto risco, e no qual o Gemini se destaca. Em nossos testes mais recentes, o modelo de embedding multimodal do Gemini melhora a precisão e o recall em milhões de registros, enquanto desbloqueia novas funcionalidades de busca poderosas para imagens e vídeos. Para profissionais jurídicos, essas novas capacidades abrem maneiras totalmente inovadoras de entender rapidamente os materiais do caso, mesmo nos maiores processos."

Max Christoff

CTO

Everlaw**

"O Gemini Embedding 2 é a base do Motor de Igualdade Econômica para Criadores da Sparkonomy. Sua multimodalidade nativa reduz nossa latência em até 70% ao eliminar a inferência de LLM e quase dobra as pontuações de similaridade semântica para pares texto-imagem e texto-vídeo — saltando de 0,4 para 0,8. Isso alimenta nosso Genoma do Criador proprietário para indexar milhões de minutos de vídeo, junto com imagens e texto, com precisão sem precedentes — desbloqueando colaborações de marca imparciais e democratizando o sucesso econômico para todo criador."

Guneet Singh

Co-fundador

Sparkonomy**

"A continuidade da API é excelente. O Gemini Embedding 2 se encaixa perfeitamente em nosso fluxo de trabalho existente com mudanças mínimas. Estamos testando novas maneiras de incorporar memórias conversacionais baseadas em texto junto com embeddings de áudio e visuais, especialmente pares de perguntas e respostas de assistentes, e vendo um aumento de 20% no recall top-1 para nosso aplicativo de bem-estar pessoal."

Ertuğrul Çavuşoğlu

Co-fundador

Mindlid**

Comece a construir hoje

Comece com o modelo Gemini Embedding 2 através do Gemini API ou Vertex AI.

python

1from google import genai
2from google.genai import types
3
4# Para Vertex AI:
5# PROJECT_ID='<add_here>'
6# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')
7
8client = genai.Client()
9
10with open("example.png", "rb") as f:
11    image_bytes = f.read()
12
13with open("sample.mp3", "rb") as f:
14    audio_bytes = f.read()
15
16# Incorporar texto, imagem e áudio
17result = client.models.embed_content(
18    model="gemini-embedding-2-preview",
19    contents=[
20        "What is the meaning of life?",
21        types.Part.from_bytes(
22            data=image_bytes,
23            mime_type="image/png",
24        ),
25        types.Part.from_bytes(
26            data=audio_bytes,
27            mime_type="audio/mpeg",
28        ),
29    ],
30)
31
32print(result.embeddings)

Aprenda a usar o modelo em nossos notebooks interativos do Colab para Gemini API e Vertex AI. Você também pode usá-lo através de LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB e Vector Search.

Ao trazer significado semântico para os diversos dados ao nosso redor, o Gemini Embedding 2 fornece a base multimodal essencial para a próxima era de experiências avançadas de IA. Mal podemos esperar para ver o que você vai construir.

Novas modalidades e dimensões de saída flexíveis

Desempenho de ponta

Desbloqueando significado mais profundo para dados

Comece a construir hoje

Use YouMind to read viral articles deeply

Artigos virais recentes

Como executar anúncios pagos a partir do Claude Code: O guia definitivo

Notícias IDOLiSH7 vol.5: Resumo das Informações do App

Por que as grandes corporações japonesas escolhem o Gemini e o Copilot como base

Como gerencio uma "Biblioteca de Prompts" com 100 prompts no NotebookLM

ArsenalOS™: A espinha dorsal digital da manufatura de defesa moderna

Uma pessoa é uma empresa de classe mundial: O manifesto da Economia Agêntica