Gemini Embedding 2: Unser erstes nativ multimodales Embedding-Modell

@GoogleAIStudio
ENGLISCHvor 4 Monaten · 10. März 2026
4.6M
11.3K
1.3K
260
9.3K

TL;DR

Gemini Embedding 2 ist Googles erstes nativ multimodales Embedding-Modell, das eine nahtlose Suche über Text, Video und Audio hinweg ermöglicht, mit flexiblen Dimensionen und Unterstützung für über 100 Sprachen.

Gemini Embedding 2 ist unser erstes nativ multimodales Einbettungsmodell, das Text, Bilder, Videos, Audio und Dokumente in einen einzigen Einbettungsraum abbildet und so multimodale Suche und Klassifizierung über verschiedene Medientypen hinweg ermöglicht – und es ist ab sofort in der öffentlichen Vorschau verfügbar.

Heute veröffentlichen wir Gemini Embedding 2, unser erstes vollständig multimodales Einbettungsmodell, das auf der Gemini-Architektur basiert, in der Public Preview über die Gemini API und Vertex AI.

Aufbauend auf unserem bisherigen rein textbasierten Fundament bildet Gemini Embedding 2 Text, Bilder, Videos, Audio und Dokumente in einen einzigen, einheitlichen Einbettungsraum ab und erfasst semantische Absichten in über 100 Sprachen. Dies vereinfacht komplexe Pipelines und verbessert eine Vielzahl von multimodalen Aufgaben – von Retrieval-Augmented Generation (RAG) und semantischer Suche bis hin zu Sentimentanalyse und Datenclustering.

Neue Modalitäten und flexible Ausgabedimensionen

Das Modell basiert auf Gemini und nutzt dessen erstklassige multimodale Verständnisfähigkeiten, um hochwertige Einbettungen zu erstellen für:

  • Text: Unterstützt einen umfangreichen Kontext von bis zu 8192 Eingabe-Token
  • Bilder: Kann bis zu 6 Bilder pro Anfrage verarbeiten, unterstützt PNG- und JPEG-Formate
  • Videos: Unterstützt bis zu 120 Sekunden Videoeingabe in MP4- und MOV-Formaten
  • Audio: Nimmt Audiodaten nativ auf und bettet sie ein, ohne dass eine zwischengeschaltete Texttranskription erforderlich ist
  • Dokumente: Bettet PDFs mit bis zu 6 Seiten direkt ein

Über die Verarbeitung einer Modalität nach der anderen hinaus versteht dieses Modell nativ verschachtelte Eingaben, sodass Sie mehrere Modalitäten (z. B. Bild + Text) in einer einzigen Anfrage übergeben können. Dadurch kann das Modell die komplexen, nuancierten Beziehungen zwischen verschiedenen Medientypen erfassen und ein genaueres Verständnis komplexer, realer Daten ermöglichen.

Google AI Studio - inline image

0:37

Wie unsere bisherigen Einbettungsmodelle integriert Gemini Embedding 2 Matryoshka Representation Learning (MRL), eine Technik, die Informationen durch dynamische Dimensionsreduzierung „verschachtelt". Dies ermöglicht flexible Ausgabedimensionen, die von den standardmäßigen 3072 skaliert werden können, sodass Entwickler Leistung und Speicherkosten ausbalancieren können. Wir empfehlen die Verwendung von 3072, 1536, 768 Dimensionen für höchste Qualität.

Modernste Leistung

Gemini Embedding 2 verbessert nicht nur ältere Modelle. Es setzt einen neuen Leistungsstandard für multimodale Tiefe, führt starke Sprachfähigkeiten ein und übertrifft führende Modelle bei Text-, Bild- und Videoaufgaben. Diese messbare Verbesserung und die einzigartige multimodale Abdeckung geben Entwicklern genau das, was sie für ihre vielfältigen Einbettungsanforderungen benötigen.

Google AI Studio - inline image

Tieferes Verständnis für Daten freischalten

Einbettungen sind die Technologie, die Erlebnisse in vielen Google-Produkten antreibt. Von RAG, wo Einbettungen eine entscheidende Rolle im Kontext-Engineering spielen können, bis hin zu groß angelegtem Datenmanagement und klassischer Suche/Analyse – einige unserer Early-Access-Partner nutzen Gemini Embedding 2 bereits, um hochwertige multimodale Anwendungen zu erschließen:

„Wir haben uns für Gemini-Einbettungen entschieden, um Juristen dabei zu helfen, während des Discovery-Prozesses in Rechtsstreitigkeiten kritische Informationen zu finden – eine hochtechnische Herausforderung in einem Umfeld mit hohen Einsätzen, bei der Gemini hervorragende Arbeit leistet. In unseren jüngsten Tests verbessert das multimodale Einbettungsmodell von Gemini Präzision und Recall bei Millionen von Datensätzen und ermöglicht gleichzeitig leistungsstarke neue Suchfunktionen für Bilder und Videos. Für Juristen eröffnen diese neuen Fähigkeiten völlig neue Wege, um Fallmaterialien auch in den größten Angelegenheiten schnell zu verstehen."

*



**Max Christoff

CTO

Everlaw**

„Gemini Embedding 2 ist die Grundlage für Sparkonomys Creator Economic Equality Engine. Seine native Multimodalität reduziert unsere Latenz um bis zu 70 %, indem LLM-Inferenz entfällt, und verdoppelt nahezu die semantischen Ähnlichkeitswerte für Text-Bild- und Text-Video-Paare – von 0,4 auf 0,8. Dies treibt unseren proprietären Creator Genome an, um Millionen von Minuten Video sowie Bilder und Text mit beispielloser Präzision zu indizieren – und ermöglicht unvoreingenommene Markenkooperationen und demokratisiert den wirtschaftlichen Erfolg für jeden Creator."



**Guneet Singh

Mitbegründer

Sparkonomy**

„Die API-Kontinuität ist hervorragend. Gemini Embedding 2 fügt sich mit minimalen Änderungen nahtlos in unseren bestehenden Workflow ein. Wir testen neue Wege, um textbasierte Gesprächserinnerungen zusammen mit Audio- und visuellen Einbettungen einzubetten, insbesondere Frage-Antwort-Paare des Assistenten, und sehen eine Steigerung des Top-1-Recall um 20 % für unsere persönliche Wellness-App."



**Ertuğrul Çavuşoğlu

Mitbegründer

Mindlid**

Jetzt mit dem Bauen beginnen

Erste Schritte mit dem Gemini Embedding 2-Modell über die Gemini API oder Vertex AI.

python
1from google import genai
2from google.genai import types
3
4# For Vertex AI:
5# PROJECT_ID='<add_here>'
6# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')
7
8client = genai.Client()
9
10with open("example.png", "rb") as f:
11 image_bytes = f.read()
12
13with open("sample.mp3", "rb") as f:
14 audio_bytes = f.read()
15
16# Embed text, image, and audio
17result = client.models.embed_content(
18 model="gemini-embedding-2-preview",
19 contents=[
20 "What is the meaning of life?",
21 types.Part.from_bytes(
22 data=image_bytes,
23 mime_type="image/png",
24 ),
25 types.Part.from_bytes(
26 data=audio_bytes,
27 mime_type="audio/mpeg",
28 ),
29 ],
30)
31
32print(result.embeddings)

Erfahren Sie, wie Sie das Modell in unseren interaktiven Colab-Notebooks für die Gemini API und Vertex AI verwenden. Sie können es auch über LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB und Vector Search nutzen.

Indem es den vielfältigen Daten um uns herum semantische Bedeutung verleiht, bietet Gemini Embedding 2 die wesentliche multimodale Grundlage für die nächste Ära fortschrittlicher KI-Erlebnisse. Wir sind gespannt, was Sie damit bauen werden.

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind

Mehr Muster zum Entschlüsseln

Aktuelle virale Artikel

Mehr virale Artikel entdecken