Gemini Embedding 2: हमारा पहला नेटिवली मल्टीमॉडल एम्बेडिंग मॉडल

Gemini Embedding 2 हमारा पहला मूल रूप से मल्टीमॉडल एम्बेडिंग मॉडल है जो टेक्स्ट, इमेज, वीडियो, ऑडियो और दस्तावेज़ों को एक ही एम्बेडिंग स्पेस में मैप करता है, जिससे विभिन्न प्रकार के मीडिया में मल्टीमॉडल रिट्रीवल और वर्गीकरण संभव होता है — और यह अब पब्लिक प्रीव्यू में उपलब्ध है।

आज हम Gemini Embedding 2 जारी कर रहे हैं, जो Gemini आर्किटेक्चर पर बनाया गया हमारा पहला पूरी तरह से मल्टीमॉडल एम्बेडिंग मॉडल है, जो Gemini API और Vertex AI के माध्यम से पब्लिक प्रीव्यू में उपलब्ध है।

हमारे पिछले केवल-टेक्स्ट फाउंडेशन का विस्तार करते हुए, Gemini Embedding 2 टेक्स्ट, इमेज, वीडियो, ऑडियो और दस्तावेज़ों को एक एकीकृत एम्बेडिंग स्पेस में मैप करता है, और 100 से अधिक भाषाओं में सिमैंटिक इंटेंट को कैप्चर करता है। यह जटिल पाइपलाइनों को सरल बनाता है और विभिन्न प्रकार के मल्टीमॉडल डाउनस्ट्रीम कार्यों को बढ़ाता है—रिट्रीवल-ऑगमेंटेड जनरेशन (RAG) और सिमैंटिक सर्च से लेकर सेंटीमेंट एनालिसिस और डेटा क्लस्टरिंग तक।

नए मोडैलिटी और लचीले आउटपुट आयाम

मॉडल Gemini पर आधारित है और उच्च गुणवत्ता वाले एम्बेडिंग बनाने के लिए इसकी बेस्ट-इन-क्लास मल्टीमॉडल समझ क्षमताओं का लाभ उठाता है:

टेक्स्ट: 8192 इनपुट टोकन तक का विस्तृत संदर्भ समर्थन करता है
इमेज: प्रति अनुरोध 6 इमेज तक प्रोसेस करने में सक्षम, PNG और JPEG फॉर्मेट सपोर्ट करता है
वीडियो: MP4 और MOV फॉर्मेट में 120 सेकंड तक के वीडियो इनपुट का समर्थन करता है
ऑडियो: बिना मध्यवर्ती टेक्स्ट ट्रांसक्रिप्शन की आवश्यकता के ऑडियो डेटा को मूल रूप से इन्जेस्ट और एम्बेड करता है
दस्तावेज़: 6 पेज तक के PDF को सीधे एम्बेड करता है

एक समय में एक मोडैलिटी प्रोसेस करने के अलावा, यह मॉडल मूल रूप से इंटरलीव्ड इनपुट को समझता है, ताकि आप एक ही अनुरोध में इनपुट की कई मोडैलिटी (जैसे, इमेज + टेक्स्ट) पास कर सकें। यह मॉडल को विभिन्न मीडिया प्रकारों के बीच जटिल, सूक्ष्म संबंधों को कैप्चर करने की अनुमति देता है, जिससे जटिल, वास्तविक दुनिया के डेटा की अधिक सटीक समझ प्राप्त होती है।

0:37

हमारे पिछले एम्बेडिंग मॉडल की तरह, Gemini Embedding 2 में Matryoshka Representation Learning (MRL) शामिल है, एक तकनीक जो आयामों को गतिशील रूप से स्केल करके जानकारी को 'नेस्ट' करती है। यह डिफ़ॉल्ट 3072 से नीचे लचीले आउटपुट आयामों को सक्षम बनाता है, ताकि डेवलपर्स प्रदर्शन और स्टोरेज लागत को संतुलित कर सकें। हम उच्चतम गुणवत्ता के लिए 3072, 1536, 768 आयामों का उपयोग करने की सलाह देते हैं।

अत्याधुनिक प्रदर्शन

Gemini Embedding 2 केवल पुराने मॉडलों में सुधार नहीं करता है। यह मल्टीमॉडल गहराई के लिए एक नया प्रदर्शन मानक स्थापित करता है, मजबूत स्पीच क्षमताओं को पेश करता है और टेक्स्ट, इमेज और वीडियो कार्यों में अग्रणी मॉडलों से बेहतर प्रदर्शन करता है। यह मापने योग्य सुधार और अद्वितीय मल्टीमॉडल कवरेज डेवलपर्स को उनकी विविध एम्बेडिंग आवश्यकताओं के लिए बिल्कुल वही देता है जिसकी उन्हें आवश्यकता है।

डेटा के लिए गहरा अर्थ अनलॉक करना

एम्बेडिंग वह तकनीक है जो कई Google उत्पादों में अनुभवों को संचालित करती है। RAG से, जहां एम्बेडिंग संदर्भ इंजीनियरिंग में महत्वपूर्ण भूमिका निभा सकते हैं, बड़े पैमाने पर डेटा प्रबंधन और क्लासिक सर्च/एनालिसिस तक, हमारे कुछ अर्ली एक्सेस पार्टनर पहले से ही Gemini Embedding 2 का उपयोग करके उच्च-मूल्य वाले मल्टीमॉडल एप्लिकेशन को अनलॉक कर रहे हैं:

"हमने कानूनी पेशेवरों को मुकदमेबाजी में डिस्कवरी प्रक्रिया के दौरान महत्वपूर्ण जानकारी खोजने में मदद करने के लिए Gemini एम्बेडिंग को चुना -- एक अत्यधिक तकनीकी चुनौती जो उच्च-दांव वाली सेटिंग में है, और एक ऐसा क्षेत्र जहां Gemini उत्कृष्ट है। हमारे सबसे हाल के परीक्षणों में, Gemini का मल्टी-मॉडल एम्बेडिंग मॉडल लाखों रिकॉर्ड्स में प्रिसिजन और रिकॉल में सुधार करता है, साथ ही इमेज और वीडियो के लिए शक्तिशाली नई सर्च कार्यक्षमता को अनलॉक करता है। कानूनी पेशेवरों के लिए, ये नई क्षमताएं सबसे बड़े मामलों में भी केस सामग्री को जल्दी से समझने के पूरी तरह से नए तरीके खोलती हैं।"

*

**Max Christoff

CTO

Everlaw**

"Gemini Embedding 2, Sparkonomy के Creator Economic Equality Engine की नींव है। इसकी मूल मल्टी-मोडैलिटी LLM इन्फ्रेंस को हटाकर हमारी लेटेंसी को 70% तक कम कर देती है और टेक्स्ट-इमेज और टेक्स्ट-वीडियो जोड़ियों के लिए सिमैंटिक समानता स्कोर को लगभग दोगुना कर देती है—0.4 से 0.8 तक छलांग लगाते हुए। यह हमारे मालिकाना Creator Genome को लाखों मिनट के वीडियो, इमेज और टेक्स्ट के साथ अभूतपूर्व सटीकता के साथ इंडेक्स करने की शक्ति देता है—निष्पक्ष ब्रांड सहयोग को अनलॉक करता है और हर क्रिएटर के लिए आर्थिक सफलता को लोकतांत्रिक बनाता है।"

**Guneet Singh

Co-founder

Sparkonomy**

"API निरंतरता उत्कृष्ट है। Gemini Embedding 2 न्यूनतम बदलावों के साथ हमारे मौजूदा वर्कफ़्लो में सीधे फिट हो जाता है। हम टेक्स्ट-आधारित संवादी यादों को ऑडियो और विज़ुअल एम्बेडिंग के साथ एम्बेड करने के नए तरीकों का परीक्षण कर रहे हैं, विशेष रूप से असिस्टेंट प्रश्न-उत्तर जोड़ियों का, और अपने पर्सनल वेलनेस ऐप के लिए टॉप-1 रिकॉल में 20% की वृद्धि देख रहे हैं।"

**Ertuğrul Çavuşoğlu

Co-founder

Mindlid**

आज ही बनाना शुरू करें

Gemini Embedding 2 मॉडल के साथ Gemini API या Vertex AI के माध्यम से शुरुआत करें।

python

1from google import genai
2from google.genai import types
3
4# Vertex AI के लिए:
5# PROJECT_ID='<add_here>'
6# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')
7
8client = genai.Client()
9
10with open("example.png", "rb") as f:
11    image_bytes = f.read()
12
13with open("sample.mp3", "rb") as f:
14    audio_bytes = f.read()
15
16# टेक्स्ट, इमेज और ऑडियो एम्बेड करें
17result = client.models.embed_content(
18    model="gemini-embedding-2-preview",
19    contents=[
20        "जीवन का अर्थ क्या है?",
21        types.Part.from_bytes(
22            data=image_bytes,
23            mime_type="image/png",
24        ),
25        types.Part.from_bytes(
26            data=audio_bytes,
27            mime_type="audio/mpeg",
28        ),
29    ],
30)
31
32print(result.embeddings)

हमारे इंटरैक्टिव Gemini API और Vertex AI Colab नोटबुक में मॉडल का उपयोग करना सीखें। आप इसे LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB, और Vector Search के माध्यम से भी उपयोग कर सकते हैं।

हमारे आसपास के विविध डेटा में सिमैंटिक अर्थ लाकर, Gemini Embedding 2 उन्नत AI अनुभवों के अगले युग के लिए आवश्यक मल्टीमॉडल नींव प्रदान करता है। हम यह देखने के लिए उत्सुक हैं कि आप क्या बनाते हैं।

Gemini Embedding 2: हमारा पहला नेटिवली मल्टीमॉडल एम्बेडिंग मॉडल

नए मोडैलिटी और लचीले आउटपुट आयाम

अत्याधुनिक प्रदर्शन

डेटा के लिए गहरा अर्थ अनलॉक करना

आज ही बनाना शुरू करें

Use YouMind to read viral articles deeply

हाल के वायरल लेख

How I Make AI UGC Videos That Perform for $2-4 with Claude + GPT Image 2 + Seedance 2 + Postiz

27 Settings to Transform Claude Code into an Autonomous Agent System

AWS Names Anduril a Preferred Edge Provider for National Security

I Made My Hermes Agent 10x Faster Without Changing the Model

We Need Knights Templar for First Principles Thinking

Let It Crash: How to Steer What Comes After