Gemini Embedding 2: Il nostro primo modello di embedding nativamente multimodale

Gemini Embedding 2 è il nostro primo modello di embedding nativamente multimodale che mappa testo, immagini, video, audio e documenti in un unico spazio di embedding, consentendo il recupero e la classificazione multimodale attraverso diversi tipi di media — ed è ora disponibile in anteprima pubblica.

Oggi rilasciamo Gemini Embedding 2, il nostro primo modello di embedding completamente multimodale basato sull'architettura Gemini, in anteprima pubblica tramite Gemini API e Vertex AI.

Basandosi sulla nostra precedente fondazione solo testuale, Gemini Embedding 2 mappa testo, immagini, video, audio e documenti in un unico spazio di embedding unificato e cattura l'intento semantico in oltre 100 lingue. Questo semplifica pipeline complesse e migliora un'ampia varietà di attività downstream multimodali, dal Retrieval-Augmented Generation (RAG) e la ricerca semantica all'analisi del sentiment e al clustering dei dati.

Nuove modalità e dimensioni di output flessibili

Il modello si basa su Gemini e sfrutta le sue capacità di comprensione multimodale di prim'ordine per creare embedding di alta qualità su:

Testo: supporta un contesto espanso fino a 8192 token di input
Immagini: in grado di elaborare fino a 6 immagini per richiesta, supportando i formati PNG e JPEG
Video: supporta fino a 120 secondi di input video nei formati MP4 e MOV
Audio: acquisisce e incorpora nativamente i dati audio senza bisogno di trascrizioni testuali intermedie
Documenti: incorpora direttamente PDF fino a 6 pagine

Oltre a elaborare una modalità alla volta, questo modello comprende nativamente input intervallati, così puoi passare più modalità di input (ad esempio, immagine + testo) in una singola richiesta. Ciò consente al modello di catturare le relazioni complesse e sfumate tra diversi tipi di media, sbloccando una comprensione più accurata di dati complessi del mondo reale.

0:37

Come i nostri precedenti modelli di embedding, Gemini Embedding 2 incorpora Matryoshka Representation Learning (MRL), una tecnica che "annida" le informazioni riducendo dinamicamente le dimensioni. Ciò consente dimensioni di output flessibili che si riducono dal valore predefinito di 3072, permettendo agli sviluppatori di bilanciare prestazioni e costi di archiviazione. Raccomandiamo di utilizzare dimensioni 3072, 1536, 768 per la massima qualità.

Prestazioni all'avanguardia

Gemini Embedding 2 non si limita a migliorare i modelli precedenti. Stabilisce un nuovo standard di prestazioni per la profondità multimodale, introducendo forti capacità vocali e superando i modelli leader nei compiti di testo, immagine e video. Questo miglioramento misurabile e la copertura multimodale unica offrono agli sviluppatori esattamente ciò di cui hanno bisogno per le loro diverse esigenze di embedding.

Sbloccare un significato più profondo per i dati

Gli embedding sono la tecnologia che alimenta le esperienze in molti prodotti Google. Dal RAG, dove gli embedding possono svolgere un ruolo cruciale nell'ingegneria del contesto, alla gestione dei dati su larga scala e alla ricerca/analisi classica, alcuni dei nostri partner in accesso anticipato stanno già utilizzando Gemini Embedding 2 per sbloccare applicazioni multimodali di alto valore:

*"Abbiamo scelto gli embedding di Gemini per aiutare i professionisti legali a trovare informazioni critiche durante il processo di discovery nei contenziosi — una sfida altamente tecnica in un contesto ad alto rischio, e una in cui Gemini eccelle. Nei nostri test più recenti, il modello di embedding multimodale di Gemini migliora precisione e richiamo su milioni di record, sbloccando al contempo potenti nuove funzionalità di ricerca per immagini e video. Per i professionisti legali, queste nuove capacità aprono modi completamente nuovi per comprendere rapidamente i materiali del caso, anche nelle questioni più grandi."

*

**Max Christoff

CTO

Everlaw**

"Gemini Embedding 2 è il fondamento del Creator Economic Equality Engine di Sparkonomy. La sua multi-modalità nativa riduce la nostra latenza fino al 70% eliminando l'inferenza LLM e quasi raddoppia i punteggi di similarità semantica per coppie testo-immagine e testo-video, passando da 0,4 a 0,8. Questo alimenta il nostro Creator Genome proprietario per indicizzare milioni di minuti di video, insieme a immagini e testo, con una precisione senza precedenti, sbloccando collaborazioni di marca imparziali e democratizzando il successo economico per ogni creatore."

**Guneet Singh

Co-fondatore

Sparkonomy**

"La continuità dell'API è eccellente. Gemini Embedding 2 si inserisce perfettamente nel nostro flusso di lavoro esistente con modifiche minime. Stiamo testando nuovi modi per incorporare ricordi conversazionali basati su testo insieme a embedding audio e visivi, in particolare coppie di domande e risposte dell'assistente, e stiamo osservando un aumento del 20% nel richiamo top-1 per la nostra app di benessere personale."

**Ertuğrul Çavuşoğlu

Co-fondatore

Mindlid**

Inizia a costruire oggi

Inizia con il modello Gemini Embedding 2 tramite Gemini API o Vertex AI.

python

1from google import genai
2from google.genai import types
3
4# Per Vertex AI:
5# PROJECT_ID='<add_here>'
6# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')
7
8client = genai.Client()
9
10with open("example.png", "rb") as f:
11    image_bytes = f.read()
12
13with open("sample.mp3", "rb") as f:
14    audio_bytes = f.read()
15
16# Incorpora testo, immagine e audio
17result = client.models.embed_content(
18    model="gemini-embedding-2-preview",
19    contents=[
20        "What is the meaning of life?",
21        types.Part.from_bytes(
22            data=image_bytes,
23            mime_type="image/png",
24        ),
25        types.Part.from_bytes(
26            data=audio_bytes,
27            mime_type="audio/mpeg",
28        ),
29    ],
30)
31
32print(result.embeddings)

Scopri come utilizzare il modello nei nostri notebook Colab interattivi di Gemini API e Vertex AI. Puoi anche utilizzarlo tramite LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB e Vector Search.

Portando significato semantico ai diversi dati che ci circondano, Gemini Embedding 2 fornisce la base multimodale essenziale per la prossima era di esperienze AI avanzate. Non vediamo l'ora di vedere cosa costruirai.

Nuove modalità e dimensioni di output flessibili

Prestazioni all'avanguardia

Sbloccare un significato più profondo per i dati

Inizia a costruire oggi

Use YouMind to read viral articles deeply

Articoli virali recenti

27 impostazioni per trasformare Claude Code in un sistema di agenti autonomi

Preparatevi per l'AX2026!

Memoria Wiki

Svelato il calendario delle uscite per il 30° anniversario del GCC Pokémon

Let It Crash: come guidare ciò che verrà dopo

AWS nomina Anduril Preferred Edge Provider per la sicurezza nazionale