Gemini Embedding 2 : notre premier modèle d'embedding nativement multimodal

Gemini Embedding 2 est notre premier modèle d'embedding nativement multimodal qui mappe texte, images, vidéo, audio et documents dans un espace d'embedding unique, permettant la récupération et la classification multimodales à travers différents types de médias — et il est disponible dès maintenant en aperçu public.

Aujourd'hui, nous publions Gemini Embedding 2, notre premier modèle d'embedding entièrement multimodal basé sur l'architecture Gemini, en aperçu public via l'API Gemini et Vertex AI.

En nous appuyant sur notre précédent fondement textuel, Gemini Embedding 2 mappe texte, images, vidéos, audio et documents dans un espace d'embedding unifié, et capture l'intention sémantique dans plus de 100 langues. Cela simplifie les pipelines complexes et améliore une grande variété de tâches multimodales en aval — de la génération augmentée par récupération (RAG) et la recherche sémantique à l'analyse des sentiments et le clustering de données.

Nouvelles modalités et dimensions de sortie flexibles

Le modèle est basé sur Gemini et exploite ses capacités de compréhension multimodale de premier ordre pour créer des embeddings de haute qualité sur :

Texte : prend en charge un contexte étendu allant jusqu'à 8192 tokens d'entrée
Images : capable de traiter jusqu'à 6 images par requête, prenant en charge les formats PNG et JPEG
Vidéos : prend en charge jusqu'à 120 secondes de vidéo en entrée aux formats MP4 et MOV
Audio : ingère et intègre nativement les données audio sans nécessiter de transcriptions textuelles intermédiaires
Documents : intègre directement les PDF jusqu'à 6 pages

Au-delà du traitement d'une modalité à la fois, ce modèle comprend nativement les entrées entrelacées, vous permettant de passer plusieurs modalités d'entrée (par exemple, image + texte) en une seule requête. Cela permet au modèle de capturer les relations complexes et nuancées entre différents types de médias, débloquant une compréhension plus précise des données complexes du monde réel.

0:37

Comme nos précédents modèles d'embedding, Gemini Embedding 2 intègre l'apprentissage de représentation Matryoshka (MRL), une technique qui « imbrique » les informations en réduisant dynamiquement les dimensions. Cela permet des dimensions de sortie flexibles, allant de la valeur par défaut de 3072, afin que les développeurs puissent équilibrer les performances et les coûts de stockage. Nous recommandons d'utiliser les dimensions 3072, 1536, 768 pour une qualité optimale.

Performances de pointe

Gemini Embedding 2 ne se contente pas d'améliorer les modèles existants. Il établit une nouvelle norme de performance pour la profondeur multimodale, introduisant de solides capacités vocales et surpassant les principaux modèles dans les tâches textuelles, image et vidéo. Cette amélioration mesurable et cette couverture multimodale unique donnent aux développeurs exactement ce dont ils ont besoin pour leurs divers besoins d'embedding.

Déverrouiller un sens plus profond pour les données

Les embeddings sont la technologie qui alimente les expériences dans de nombreux produits Google. De la RAG, où les embeddings peuvent jouer un rôle crucial dans l'ingénierie du contexte, à la gestion de données à grande échelle et à la recherche/analyse classique, certains de nos partenaires d'accès anticipé utilisent déjà Gemini Embedding 2 pour débloquer des applications multimodales à forte valeur ajoutée :

« Nous avons choisi les embeddings Gemini pour aider les professionnels du droit à trouver des informations critiques lors du processus de découverte dans les litiges — un défi hautement technique dans un contexte à enjeux élevés, et un domaine dans lequel Gemini excelle. Lors de nos tests les plus récents, le modèle d'embedding multimodal de Gemini améliore la précision et le rappel sur des millions d'enregistrements, tout en débloquant de puissantes nouvelles fonctionnalités de recherche pour les images et les vidéos. Pour les professionnels du droit, ces nouvelles capacités ouvrent des façons entièrement nouvelles de comprendre rapidement les documents de l'affaire, même dans les dossiers les plus importants. »

*

**Max Christoff

CTO

Everlaw**

« Gemini Embedding 2 est le fondement du Creator Economic Equality Engine de Sparkonomy. Sa multimodalité native réduit notre latence jusqu'à 70 % en supprimant l'inférence LLM et double presque les scores de similarité sémantique pour les paires texte-image et texte-vidéo — passant de 0,4 à 0,8. Cela alimente notre Creator Genome propriétaire pour indexer des millions de minutes de vidéo, ainsi que des images et du texte, avec une précision sans précédent — débloquant des collaborations de marque impartiales et démocratisant la réussite économique pour chaque créateur. »

**Guneet Singh

Co-fondateur

Sparkonomy**

« La continuité de l'API est excellente. Gemini Embedding 2 s'intègre parfaitement dans notre flux de travail existant avec des modifications minimes. Nous testons de nouvelles façons d'incorporer les souvenirs conversationnels textuels avec des embeddings audio et visuels, en particulier les paires de questions-réponses de l'assistant, et nous constatons une augmentation de 20 % du rappel top-1 pour notre application de bien-être personnel. »

**Ertuğrul Çavuşoğlu

Co-fondateur

Mindlid**

Commencez à construire dès aujourd'hui

Commencez avec le modèle Gemini Embedding 2 via l'API Gemini ou Vertex AI.

python

1from google import genai
2from google.genai import types
3
4# For Vertex AI:
5# PROJECT_ID='<add_here>'
6# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')
7
8client = genai.Client()
9
10with open("example.png", "rb") as f:
11    image_bytes = f.read()
12
13with open("sample.mp3", "rb") as f:
14    audio_bytes = f.read()
15
16# Embed text, image, and audio
17result = client.models.embed_content(
18    model="gemini-embedding-2-preview",
19    contents=[
20        "What is the meaning of life?",
21        types.Part.from_bytes(
22            data=image_bytes,
23            mime_type="image/png",
24        ),
25        types.Part.from_bytes(
26            data=audio_bytes,
27            mime_type="audio/mpeg",
28        ),
29    ],
30)
31
32print(result.embeddings)

Apprenez à utiliser le modèle dans nos notebooks Colab interactifs API Gemini et Vertex AI. Vous pouvez également l'utiliser via LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB et Vector Search.

En apportant un sens sémantique aux diverses données qui nous entourent, Gemini Embedding 2 fournit la base multimodale essentielle pour la prochaine ère d'expériences avancées en IA. Nous avons hâte de voir ce que vous allez construire.

Nouvelles modalités et dimensions de sortie flexibles

Performances de pointe

Déverrouiller un sens plus profond pour les données

Commencez à construire dès aujourd'hui

Use YouMind to read viral articles deeply

Articles viraux récents

Baseball Has a Crisis, and Everybody Knows It

Pokémon TCG 30th Celebration Release Schedule Revealed

How I Make AI UGC Videos That Perform for $2-4 with Claude + GPT Image 2 + Seedance 2 + Postiz

Claude Made Us $30k in 4 Days (Case Study)

Introducing Open USD

AWS Names Anduril a Preferred Edge Provider for National Security