Gemini Embedding 2: İlk yerel çok modlu yerleştirme modelimiz

Gemini Embedding 2, metin, görüntü, video, ses ve belgeleri tek bir gömme uzayına haritalayan, çok modlu alma ve sınıflandırmayı farklı medya türleri arasında mümkün kılan ilk yerel çok modlu gömme modelimizdir ve şu anda genel ön izlemede kullanıma sunulmuştur.

Bugün, Gemini API ve Vertex AI aracılığıyla Genel Ön İzleme'de, Gemini mimarisi üzerine inşa edilmiş ilk tam çok modlu gömme modelimiz olan Gemini Embedding 2'yi yayınlıyoruz.

Önceki yalnızca metin tabanlı temelimizi genişleten Gemini Embedding 2, metin, görüntü, video, ses ve belgeleri tek, birleşik bir gömme uzayına haritalar ve 100'den fazla dilde anlamsal niyeti yakalar. Bu, karmaşık iş akışlarını basitleştirir ve Alma-Güçlendirilmiş Üretim (RAG) ve anlamsal aramadan, duygu analizi ve veri kümelemeye kadar çok çeşitli çok modlu alt görevleri geliştirir.

Yeni Modaliteler ve Esnek Çıktı Boyutları

Model, Gemini'yi temel alır ve yüksek kaliteli gömmeler oluşturmak için en iyi sınıf çok modlu anlama yeteneklerini kullanır:

Metin: 8192'ye kadar giriş token'ından oluşan geniş bir bağlamı destekler
Görseller: İstek başına 6 adede kadar görüntüyü işleyebilir, PNG ve JPEG formatlarını destekler
Video: MP4 ve MOV formatlarında 120 saniyeye kadar video girişini destekler
Ses: Ara metin transkripsiyonlarına ihtiyaç duymadan ses verilerini yerel olarak alır ve gömer
Belgeler: 6 sayfaya kadar PDF'leri doğrudan gömer

Model, her seferinde bir modaliteyi işlemenin ötesinde, iç içe geçmiş girişi yerel olarak anlar, böylece tek bir istekte birden çok modaliteyi (ör. görüntü + metin) iletebilirsiniz. Bu, modelin farklı medya türleri arasındaki karmaşık, incelikli ilişkileri yakalamasına olanak tanıyarak karmaşık, gerçek dünya verilerinin daha doğru anlaşılmasını sağlar.

0:37

Önceki gömme modellerimiz gibi Gemini Embedding 2 de, bilgiyi boyutları dinamik olarak küçülterek "iç içe yerleştiren" bir teknik olan Matryoshka Temsil Öğrenimini (MRL) içerir. Bu, geliştiricilerin performans ve depolama maliyetlerini dengelemesi için varsayılan 3072'den küçülen esnek çıktı boyutları sağlar. En yüksek kalite için 3072, 1536, 768 boyutlarını kullanmanızı öneririz.

Son Teknoloji Performans

Gemini Embedding 2 yalnızca eski modelleri iyileştirmekle kalmıyor. Çok modlu derinlik için yeni bir performans standardı oluşturuyor, güçlü konuşma yetenekleri sunuyor ve metin, görüntü ve video görevlerinde lider modelleri geride bırakıyor. Bu ölçülebilir iyileştirme ve benzersiz çok modlu kapsama alanı, geliştiricilere çeşitli gömme ihtiyaçları için tam olarak ihtiyaç duydukları şeyi veriyor.

Veriler İçin Daha Derin Anlamın Kilidini Açmak

Gömmeler, Google'ın birçok ürününde deneyimlere güç veren teknolojidir. Gömmelerin bağlam mühendisliğinde çok önemli bir rol oynayabileceği RAG'dan büyük ölçekli veri yönetimine ve klasik arama/analize kadar, bazı erken erişim ortaklarımız halihazırda değerli çok modlu uygulamaların kilidini açmak için Gemini Embedding 2'yi kullanıyor:

"Hukuk profesyonellerinin dava sırasında keşif sürecinde kritik bilgileri bulmasına yardımcı olmak için Gemini gömmelerini seçtik - bu, yüksek riskli bir ortamda son derece teknik bir zorluk ve Gemini'nin üstün olduğu bir alan. En son testlerimizde, Gemini'nin çok modlu gömme modeli, milyonlarca kayıtta hassasiyeti ve hatırlamayı iyileştirirken, görüntüler ve videolar için güçlü yeni arama işlevlerinin kilidini açıyor. Hukuk profesyonelleri için bu yeni yetenekler, en büyük davalarda bile dava materyallerini hızla anlamanın tamamen yeni yollarını sunuyor."

**Max Christoff

CTO

Everlaw**

"Gemini Embedding 2, Sparkonomy'nin Yaratıcı Ekonomik Eşitlik Motoru'nun temelidir. Yerel çok modluluğu, LLM çıkarımını kaldırarak gecikme süremizi %70'e kadar azaltıyor ve metin-görüntü ve metin-video çiftleri için anlamsal benzerlik puanlarını neredeyse ikiye katlayarak 0.4'ten 0.8'e yükseltiyor. Bu, tescilli Yaratıcı Genomu'muza, görüntü ve metinlerin yanı sıra milyonlarca dakikalık videoyu benzeri görülmemiş bir hassasiyetle indeksleme gücü veriyor - tarafsız marka işbirliklerinin kilidini açıyor ve her yaratıcı için ekonomik başarıyı demokratikleştiriyor."

**Guneet Singh

Kurucu Ortak

Sparkonomy**

"API sürekliliği mükemmel. Gemini Embedding 2, minimum değişiklikle mevcut iş akışımıza sorunsuzca uyum sağlıyor. Metin tabanlı sohbet anılarını, ses ve görsel gömmelerle, özellikle asistan soru-cevap çiftleriyle birlikte gömmenin yeni yollarını test ediyoruz ve kişisel sağlık uygulamamızda en önemli 1 hatırlamada %20'lik bir artış görüyoruz."

**Ertuğrul Çavuşoğlu

Kurucu Ortak

Mindlid**

Hemen Oluşturmaya Başlayın

Gemini Embedding 2 modelini Gemini API veya Vertex AI aracılığıyla kullanmaya başlayın.

python

1from google import genai
2from google.genai import types
3
4# For Vertex AI:
5# PROJECT_ID='<add_here>'
6# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')
7
8client = genai.Client()
9
10with open("example.png", "rb") as f:
11    image_bytes = f.read()
12
13with open("sample.mp3", "rb") as f:
14    audio_bytes = f.read()
15
16# Embed text, image, and audio
17result = client.models.embed_content(
18    model="gemini-embedding-2-preview",
19    contents=[
20        "What is the meaning of life?",
21        types.Part.from_bytes(
22            data=image_bytes,
23            mime_type="image/png",
24        ),
25        types.Part.from_bytes(
26            data=audio_bytes,
27            mime_type="audio/mpeg",
28        ),
29    ],
30)
31
32print(result.embeddings)

Etkileşimli Gemini API ve Vertex AI Colab not defterlerimizde modeli nasıl kullanacağınızı öğrenin. Ayrıca LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB ve Vector Search aracılığıyla da kullanabilirsiniz.

Gemini Embedding 2, etrafımızdaki çeşitli verilere anlamsal anlam kazandırarak, gelişmiş AI deneyimlerinin bir sonraki çağı için temel çok modlu temeli sağlıyor. Ne oluşturacağınızı görmek için sabırsızlanıyoruz.

Yeni Modaliteler ve Esnek Çıktı Boyutları

Son Teknoloji Performans

Veriler İçin Daha Derin Anlamın Kilidini Açmak

Hemen Oluşturmaya Başlayın

Use YouMind to read viral articles deeply

Son viral makaleler

AWS, Anduril'i Ulusal Güvenlik İçin Tercih Edilen Uç Bilişim Sağlayıcısı Olarak Belirledi

Claude Code'u Otonom Bir Ajan Sistemine Dönüştürecek 27 Ayar

Döngüye Takılıp Kalmayın: Siz Uyurken Claude'un Çalışmasını Nasıl Sağlarsınız?

Hermes Ajanımı Modeli Değiştirmeden 10 Kat Hızlandırdım

Open USD ile Tanışın

Token Ekonomisi Güncellemesi