Gemini Embedding 2: Unser erstes nativ multimodales Embedding-Modell

Gemini Embedding 2 ist unser erstes nativ multimodales Einbettungsmodell, das Text, Bilder, Videos, Audio und Dokumente in einen einzigen Einbettungsraum abbildet und so multimodale Suche und Klassifizierung über verschiedene Medientypen hinweg ermöglicht – und es ist ab sofort in der öffentlichen Vorschau verfügbar.

Heute veröffentlichen wir Gemini Embedding 2, unser erstes vollständig multimodales Einbettungsmodell, das auf der Gemini-Architektur basiert, in der Public Preview über die Gemini API und Vertex AI.

Aufbauend auf unserem bisherigen rein textbasierten Fundament bildet Gemini Embedding 2 Text, Bilder, Videos, Audio und Dokumente in einen einzigen, einheitlichen Einbettungsraum ab und erfasst semantische Absichten in über 100 Sprachen. Dies vereinfacht komplexe Pipelines und verbessert eine Vielzahl von multimodalen Aufgaben – von Retrieval-Augmented Generation (RAG) und semantischer Suche bis hin zu Sentimentanalyse und Datenclustering.

Neue Modalitäten und flexible Ausgabedimensionen

Das Modell basiert auf Gemini und nutzt dessen erstklassige multimodale Verständnisfähigkeiten, um hochwertige Einbettungen zu erstellen für:

Text: Unterstützt einen umfangreichen Kontext von bis zu 8192 Eingabe-Token
Bilder: Kann bis zu 6 Bilder pro Anfrage verarbeiten, unterstützt PNG- und JPEG-Formate
Videos: Unterstützt bis zu 120 Sekunden Videoeingabe in MP4- und MOV-Formaten
Audio: Nimmt Audiodaten nativ auf und bettet sie ein, ohne dass eine zwischengeschaltete Texttranskription erforderlich ist
Dokumente: Bettet PDFs mit bis zu 6 Seiten direkt ein

Über die Verarbeitung einer Modalität nach der anderen hinaus versteht dieses Modell nativ verschachtelte Eingaben, sodass Sie mehrere Modalitäten (z. B. Bild + Text) in einer einzigen Anfrage übergeben können. Dadurch kann das Modell die komplexen, nuancierten Beziehungen zwischen verschiedenen Medientypen erfassen und ein genaueres Verständnis komplexer, realer Daten ermöglichen.

0:37

Wie unsere bisherigen Einbettungsmodelle integriert Gemini Embedding 2 Matryoshka Representation Learning (MRL), eine Technik, die Informationen durch dynamische Dimensionsreduzierung „verschachtelt". Dies ermöglicht flexible Ausgabedimensionen, die von den standardmäßigen 3072 skaliert werden können, sodass Entwickler Leistung und Speicherkosten ausbalancieren können. Wir empfehlen die Verwendung von 3072, 1536, 768 Dimensionen für höchste Qualität.

Modernste Leistung

Gemini Embedding 2 verbessert nicht nur ältere Modelle. Es setzt einen neuen Leistungsstandard für multimodale Tiefe, führt starke Sprachfähigkeiten ein und übertrifft führende Modelle bei Text-, Bild- und Videoaufgaben. Diese messbare Verbesserung und die einzigartige multimodale Abdeckung geben Entwicklern genau das, was sie für ihre vielfältigen Einbettungsanforderungen benötigen.

Tieferes Verständnis für Daten freischalten

Einbettungen sind die Technologie, die Erlebnisse in vielen Google-Produkten antreibt. Von RAG, wo Einbettungen eine entscheidende Rolle im Kontext-Engineering spielen können, bis hin zu groß angelegtem Datenmanagement und klassischer Suche/Analyse – einige unserer Early-Access-Partner nutzen Gemini Embedding 2 bereits, um hochwertige multimodale Anwendungen zu erschließen:

„Wir haben uns für Gemini-Einbettungen entschieden, um Juristen dabei zu helfen, während des Discovery-Prozesses in Rechtsstreitigkeiten kritische Informationen zu finden – eine hochtechnische Herausforderung in einem Umfeld mit hohen Einsätzen, bei der Gemini hervorragende Arbeit leistet. In unseren jüngsten Tests verbessert das multimodale Einbettungsmodell von Gemini Präzision und Recall bei Millionen von Datensätzen und ermöglicht gleichzeitig leistungsstarke neue Suchfunktionen für Bilder und Videos. Für Juristen eröffnen diese neuen Fähigkeiten völlig neue Wege, um Fallmaterialien auch in den größten Angelegenheiten schnell zu verstehen."

*

**Max Christoff

CTO

Everlaw**

„Gemini Embedding 2 ist die Grundlage für Sparkonomys Creator Economic Equality Engine. Seine native Multimodalität reduziert unsere Latenz um bis zu 70 %, indem LLM-Inferenz entfällt, und verdoppelt nahezu die semantischen Ähnlichkeitswerte für Text-Bild- und Text-Video-Paare – von 0,4 auf 0,8. Dies treibt unseren proprietären Creator Genome an, um Millionen von Minuten Video sowie Bilder und Text mit beispielloser Präzision zu indizieren – und ermöglicht unvoreingenommene Markenkooperationen und demokratisiert den wirtschaftlichen Erfolg für jeden Creator."

**Guneet Singh

Mitbegründer

Sparkonomy**

„Die API-Kontinuität ist hervorragend. Gemini Embedding 2 fügt sich mit minimalen Änderungen nahtlos in unseren bestehenden Workflow ein. Wir testen neue Wege, um textbasierte Gesprächserinnerungen zusammen mit Audio- und visuellen Einbettungen einzubetten, insbesondere Frage-Antwort-Paare des Assistenten, und sehen eine Steigerung des Top-1-Recall um 20 % für unsere persönliche Wellness-App."

**Ertuğrul Çavuşoğlu

Mitbegründer

Mindlid**

Jetzt mit dem Bauen beginnen

Erste Schritte mit dem Gemini Embedding 2-Modell über die Gemini API oder Vertex AI.

python

1from google import genai
2from google.genai import types
3
4# For Vertex AI:
5# PROJECT_ID='<add_here>'
6# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')
7
8client = genai.Client()
9
10with open("example.png", "rb") as f:
11    image_bytes = f.read()
12
13with open("sample.mp3", "rb") as f:
14    audio_bytes = f.read()
15
16# Embed text, image, and audio
17result = client.models.embed_content(
18    model="gemini-embedding-2-preview",
19    contents=[
20        "What is the meaning of life?",
21        types.Part.from_bytes(
22            data=image_bytes,
23            mime_type="image/png",
24        ),
25        types.Part.from_bytes(
26            data=audio_bytes,
27            mime_type="audio/mpeg",
28        ),
29    ],
30)
31
32print(result.embeddings)

Erfahren Sie, wie Sie das Modell in unseren interaktiven Colab-Notebooks für die Gemini API und Vertex AI verwenden. Sie können es auch über LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB und Vector Search nutzen.

Indem es den vielfältigen Daten um uns herum semantische Bedeutung verleiht, bietet Gemini Embedding 2 die wesentliche multimodale Grundlage für die nächste Ära fortschrittlicher KI-Erlebnisse. Wir sind gespannt, was Sie damit bauen werden.

Neue Modalitäten und flexible Ausgabedimensionen

Modernste Leistung

Tieferes Verständnis für Daten freischalten

Jetzt mit dem Bauen beginnen

Use YouMind to read viral articles deeply

Aktuelle virale Artikel

ORACLE: Offizielle KI-Agenten handeln auf Polymarket

Jupiter tritt am 30. Juni 2026 in den Löwen ein: So nutzen Sie Ihr Glück

Zusammenfassung der Informationen zum Resonance Alca Song

Die weltweit köstlichste Art, Tomaten zu genießen

ORACLE: Offizielle KI-Agenten für den Handel auf Polymarket

Ideengeneratoren: Reid Hoffman über Mark Pincus und die Theorie des Spiels