Gemini Embedding 2 est notre premier modèle d'embedding nativement multimodal qui mappe texte, images, vidéo, audio et documents dans un espace d'embedding unique, permettant la récupération et la classification multimodales à travers différents types de médias — et il est disponible dès maintenant en aperçu public.
Aujourd'hui, nous publions Gemini Embedding 2, notre premier modèle d'embedding entièrement multimodal basé sur l'architecture Gemini, en aperçu public via l'API Gemini et Vertex AI.
En nous appuyant sur notre précédent fondement textuel, Gemini Embedding 2 mappe texte, images, vidéos, audio et documents dans un espace d'embedding unifié, et capture l'intention sémantique dans plus de 100 langues. Cela simplifie les pipelines complexes et améliore une grande variété de tâches multimodales en aval — de la génération augmentée par récupération (RAG) et la recherche sémantique à l'analyse des sentiments et le clustering de données.
Nouvelles modalités et dimensions de sortie flexibles
Le modèle est basé sur Gemini et exploite ses capacités de compréhension multimodale de premier ordre pour créer des embeddings de haute qualité sur :
- Texte : prend en charge un contexte étendu allant jusqu'à 8192 tokens d'entrée
- Images : capable de traiter jusqu'à 6 images par requête, prenant en charge les formats PNG et JPEG
- Vidéos : prend en charge jusqu'à 120 secondes de vidéo en entrée aux formats MP4 et MOV
- Audio : ingère et intègre nativement les données audio sans nécessiter de transcriptions textuelles intermédiaires
- Documents : intègre directement les PDF jusqu'à 6 pages
Au-delà du traitement d'une modalité à la fois, ce modèle comprend nativement les entrées entrelacées, vous permettant de passer plusieurs modalités d'entrée (par exemple, image + texte) en une seule requête. Cela permet au modèle de capturer les relations complexes et nuancées entre différents types de médias, débloquant une compréhension plus précise des données complexes du monde réel.
0:37
Comme nos précédents modèles d'embedding, Gemini Embedding 2 intègre l'apprentissage de représentation Matryoshka (MRL), une technique qui « imbrique » les informations en réduisant dynamiquement les dimensions. Cela permet des dimensions de sortie flexibles, allant de la valeur par défaut de 3072, afin que les développeurs puissent équilibrer les performances et les coûts de stockage. Nous recommandons d'utiliser les dimensions 3072, 1536, 768 pour une qualité optimale.
Performances de pointe
Gemini Embedding 2 ne se contente pas d'améliorer les modèles existants. Il établit une nouvelle norme de performance pour la profondeur multimodale, introduisant de solides capacités vocales et surpassant les principaux modèles dans les tâches textuelles, image et vidéo. Cette amélioration mesurable et cette couverture multimodale unique donnent aux développeurs exactement ce dont ils ont besoin pour leurs divers besoins d'embedding.

Déverrouiller un sens plus profond pour les données
Les embeddings sont la technologie qui alimente les expériences dans de nombreux produits Google. De la RAG, où les embeddings peuvent jouer un rôle crucial dans l'ingénierie du contexte, à la gestion de données à grande échelle et à la recherche/analyse classique, certains de nos partenaires d'accès anticipé utilisent déjà Gemini Embedding 2 pour débloquer des applications multimodales à forte valeur ajoutée :
« Nous avons choisi les embeddings Gemini pour aider les professionnels du droit à trouver des informations critiques lors du processus de découverte dans les litiges — un défi hautement technique dans un contexte à enjeux élevés, et un domaine dans lequel Gemini excelle. Lors de nos tests les plus récents, le modèle d'embedding multimodal de Gemini améliore la précision et le rappel sur des millions d'enregistrements, tout en débloquant de puissantes nouvelles fonctionnalités de recherche pour les images et les vidéos. Pour les professionnels du droit, ces nouvelles capacités ouvrent des façons entièrement nouvelles de comprendre rapidement les documents de l'affaire, même dans les dossiers les plus importants. »
*
**Max Christoff
CTO
Everlaw**
« Gemini Embedding 2 est le fondement du Creator Economic Equality Engine de Sparkonomy. Sa multimodalité native réduit notre latence jusqu'à 70 % en supprimant l'inférence LLM et double presque les scores de similarité sémantique pour les paires texte-image et texte-vidéo — passant de 0,4 à 0,8. Cela alimente notre Creator Genome propriétaire pour indexer des millions de minutes de vidéo, ainsi que des images et du texte, avec une précision sans précédent — débloquant des collaborations de marque impartiales et démocratisant la réussite économique pour chaque créateur. »
**Guneet Singh
Co-fondateur
Sparkonomy**
« La continuité de l'API est excellente. Gemini Embedding 2 s'intègre parfaitement dans notre flux de travail existant avec des modifications minimes. Nous testons de nouvelles façons d'incorporer les souvenirs conversationnels textuels avec des embeddings audio et visuels, en particulier les paires de questions-réponses de l'assistant, et nous constatons une augmentation de 20 % du rappel top-1 pour notre application de bien-être personnel. »
**Ertuğrul Çavuşoğlu
Co-fondateur
Mindlid**
Commencez à construire dès aujourd'hui
Commencez avec le modèle Gemini Embedding 2 via l'API Gemini ou Vertex AI.
1from google import genai2from google.genai import types34# For Vertex AI:5# PROJECT_ID='<add_here>'6# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')78client = genai.Client()910with open("example.png", "rb") as f:11 image_bytes = f.read()1213with open("sample.mp3", "rb") as f:14 audio_bytes = f.read()1516# Embed text, image, and audio17result = client.models.embed_content(18 model="gemini-embedding-2-preview",19 contents=[20 "What is the meaning of life?",21 types.Part.from_bytes(22 data=image_bytes,23 mime_type="image/png",24 ),25 types.Part.from_bytes(26 data=audio_bytes,27 mime_type="audio/mpeg",28 ),29 ],30)3132print(result.embeddings)
Apprenez à utiliser le modèle dans nos notebooks Colab interactifs API Gemini et Vertex AI. Vous pouvez également l'utiliser via LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB et Vector Search.
En apportant un sens sémantique aux diverses données qui nous entourent, Gemini Embedding 2 fournit la base multimodale essentielle pour la prochaine ère d'expériences avancées en IA. Nous avons hâte de voir ce que vous allez construire.






