Gemini Embedding 2: हमारा पहला नेटिवली मल्टीमॉडल एम्बेडिंग मॉडल

@GoogleAIStudio
अंग्रेज़ी4 माह पहले · 10 मार्च 2026
4.6M
11.3K
1.3K
260
9.3K

TL;DR

Gemini Embedding 2 Google का पहला नेटिवली मल्टीमॉडल एम्बेडिंग मॉडल है, जो लचीले आयामों और 100 से अधिक भाषाओं के समर्थन के साथ टेक्स्ट, वीडियो और ऑडियो में सहज रिट्रीवल को सक्षम बनाता है।

Gemini Embedding 2 हमारा पहला मूल रूप से मल्टीमॉडल एम्बेडिंग मॉडल है जो टेक्स्ट, इमेज, वीडियो, ऑडियो और दस्तावेज़ों को एक ही एम्बेडिंग स्पेस में मैप करता है, जिससे विभिन्न प्रकार के मीडिया में मल्टीमॉडल रिट्रीवल और वर्गीकरण संभव होता है — और यह अब पब्लिक प्रीव्यू में उपलब्ध है।

आज हम Gemini Embedding 2 जारी कर रहे हैं, जो Gemini आर्किटेक्चर पर बनाया गया हमारा पहला पूरी तरह से मल्टीमॉडल एम्बेडिंग मॉडल है, जो Gemini API और Vertex AI के माध्यम से पब्लिक प्रीव्यू में उपलब्ध है।

हमारे पिछले केवल-टेक्स्ट फाउंडेशन का विस्तार करते हुए, Gemini Embedding 2 टेक्स्ट, इमेज, वीडियो, ऑडियो और दस्तावेज़ों को एक एकीकृत एम्बेडिंग स्पेस में मैप करता है, और 100 से अधिक भाषाओं में सिमैंटिक इंटेंट को कैप्चर करता है। यह जटिल पाइपलाइनों को सरल बनाता है और विभिन्न प्रकार के मल्टीमॉडल डाउनस्ट्रीम कार्यों को बढ़ाता है—रिट्रीवल-ऑगमेंटेड जनरेशन (RAG) और सिमैंटिक सर्च से लेकर सेंटीमेंट एनालिसिस और डेटा क्लस्टरिंग तक।

नए मोडैलिटी और लचीले आउटपुट आयाम

मॉडल Gemini पर आधारित है और उच्च गुणवत्ता वाले एम्बेडिंग बनाने के लिए इसकी बेस्ट-इन-क्लास मल्टीमॉडल समझ क्षमताओं का लाभ उठाता है:

  • टेक्स्ट: 8192 इनपुट टोकन तक का विस्तृत संदर्भ समर्थन करता है
  • इमेज: प्रति अनुरोध 6 इमेज तक प्रोसेस करने में सक्षम, PNG और JPEG फॉर्मेट सपोर्ट करता है
  • वीडियो: MP4 और MOV फॉर्मेट में 120 सेकंड तक के वीडियो इनपुट का समर्थन करता है
  • ऑडियो: बिना मध्यवर्ती टेक्स्ट ट्रांसक्रिप्शन की आवश्यकता के ऑडियो डेटा को मूल रूप से इन्जेस्ट और एम्बेड करता है
  • दस्तावेज़: 6 पेज तक के PDF को सीधे एम्बेड करता है

एक समय में एक मोडैलिटी प्रोसेस करने के अलावा, यह मॉडल मूल रूप से इंटरलीव्ड इनपुट को समझता है, ताकि आप एक ही अनुरोध में इनपुट की कई मोडैलिटी (जैसे, इमेज + टेक्स्ट) पास कर सकें। यह मॉडल को विभिन्न मीडिया प्रकारों के बीच जटिल, सूक्ष्म संबंधों को कैप्चर करने की अनुमति देता है, जिससे जटिल, वास्तविक दुनिया के डेटा की अधिक सटीक समझ प्राप्त होती है।

Google AI Studio - inline image

0:37

हमारे पिछले एम्बेडिंग मॉडल की तरह, Gemini Embedding 2 में Matryoshka Representation Learning (MRL) शामिल है, एक तकनीक जो आयामों को गतिशील रूप से स्केल करके जानकारी को 'नेस्ट' करती है। यह डिफ़ॉल्ट 3072 से नीचे लचीले आउटपुट आयामों को सक्षम बनाता है, ताकि डेवलपर्स प्रदर्शन और स्टोरेज लागत को संतुलित कर सकें। हम उच्चतम गुणवत्ता के लिए 3072, 1536, 768 आयामों का उपयोग करने की सलाह देते हैं।

अत्याधुनिक प्रदर्शन

Gemini Embedding 2 केवल पुराने मॉडलों में सुधार नहीं करता है। यह मल्टीमॉडल गहराई के लिए एक नया प्रदर्शन मानक स्थापित करता है, मजबूत स्पीच क्षमताओं को पेश करता है और टेक्स्ट, इमेज और वीडियो कार्यों में अग्रणी मॉडलों से बेहतर प्रदर्शन करता है। यह मापने योग्य सुधार और अद्वितीय मल्टीमॉडल कवरेज डेवलपर्स को उनकी विविध एम्बेडिंग आवश्यकताओं के लिए बिल्कुल वही देता है जिसकी उन्हें आवश्यकता है।

Google AI Studio - inline image

डेटा के लिए गहरा अर्थ अनलॉक करना

एम्बेडिंग वह तकनीक है जो कई Google उत्पादों में अनुभवों को संचालित करती है। RAG से, जहां एम्बेडिंग संदर्भ इंजीनियरिंग में महत्वपूर्ण भूमिका निभा सकते हैं, बड़े पैमाने पर डेटा प्रबंधन और क्लासिक सर्च/एनालिसिस तक, हमारे कुछ अर्ली एक्सेस पार्टनर पहले से ही Gemini Embedding 2 का उपयोग करके उच्च-मूल्य वाले मल्टीमॉडल एप्लिकेशन को अनलॉक कर रहे हैं:

"हमने कानूनी पेशेवरों को मुकदमेबाजी में डिस्कवरी प्रक्रिया के दौरान महत्वपूर्ण जानकारी खोजने में मदद करने के लिए Gemini एम्बेडिंग को चुना -- एक अत्यधिक तकनीकी चुनौती जो उच्च-दांव वाली सेटिंग में है, और एक ऐसा क्षेत्र जहां Gemini उत्कृष्ट है। हमारे सबसे हाल के परीक्षणों में, Gemini का मल्टी-मॉडल एम्बेडिंग मॉडल लाखों रिकॉर्ड्स में प्रिसिजन और रिकॉल में सुधार करता है, साथ ही इमेज और वीडियो के लिए शक्तिशाली नई सर्च कार्यक्षमता को अनलॉक करता है। कानूनी पेशेवरों के लिए, ये नई क्षमताएं सबसे बड़े मामलों में भी केस सामग्री को जल्दी से समझने के पूरी तरह से नए तरीके खोलती हैं।"

*



**Max Christoff

CTO

Everlaw**

"Gemini Embedding 2, Sparkonomy के Creator Economic Equality Engine की नींव है। इसकी मूल मल्टी-मोडैलिटी LLM इन्फ्रेंस को हटाकर हमारी लेटेंसी को 70% तक कम कर देती है और टेक्स्ट-इमेज और टेक्स्ट-वीडियो जोड़ियों के लिए सिमैंटिक समानता स्कोर को लगभग दोगुना कर देती है—0.4 से 0.8 तक छलांग लगाते हुए। यह हमारे मालिकाना Creator Genome को लाखों मिनट के वीडियो, इमेज और टेक्स्ट के साथ अभूतपूर्व सटीकता के साथ इंडेक्स करने की शक्ति देता है—निष्पक्ष ब्रांड सहयोग को अनलॉक करता है और हर क्रिएटर के लिए आर्थिक सफलता को लोकतांत्रिक बनाता है।"



**Guneet Singh

Co-founder

Sparkonomy**

"API निरंतरता उत्कृष्ट है। Gemini Embedding 2 न्यूनतम बदलावों के साथ हमारे मौजूदा वर्कफ़्लो में सीधे फिट हो जाता है। हम टेक्स्ट-आधारित संवादी यादों को ऑडियो और विज़ुअल एम्बेडिंग के साथ एम्बेड करने के नए तरीकों का परीक्षण कर रहे हैं, विशेष रूप से असिस्टेंट प्रश्न-उत्तर जोड़ियों का, और अपने पर्सनल वेलनेस ऐप के लिए टॉप-1 रिकॉल में 20% की वृद्धि देख रहे हैं।"



**Ertuğrul Çavuşoğlu

Co-founder

Mindlid**

आज ही बनाना शुरू करें

Gemini Embedding 2 मॉडल के साथ Gemini API या Vertex AI के माध्यम से शुरुआत करें।

python
1from google import genai
2from google.genai import types
3
4# Vertex AI के लिए:
5# PROJECT_ID='<add_here>'
6# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')
7
8client = genai.Client()
9
10with open("example.png", "rb") as f:
11 image_bytes = f.read()
12
13with open("sample.mp3", "rb") as f:
14 audio_bytes = f.read()
15
16# टेक्स्ट, इमेज और ऑडियो एम्बेड करें
17result = client.models.embed_content(
18 model="gemini-embedding-2-preview",
19 contents=[
20 "जीवन का अर्थ क्या है?",
21 types.Part.from_bytes(
22 data=image_bytes,
23 mime_type="image/png",
24 ),
25 types.Part.from_bytes(
26 data=audio_bytes,
27 mime_type="audio/mpeg",
28 ),
29 ],
30)
31
32print(result.embeddings)

हमारे इंटरैक्टिव Gemini API और Vertex AI Colab नोटबुक में मॉडल का उपयोग करना सीखें। आप इसे LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB, और Vector Search के माध्यम से भी उपयोग कर सकते हैं।

हमारे आसपास के विविध डेटा में सिमैंटिक अर्थ लाकर, Gemini Embedding 2 उन्नत AI अनुभवों के अगले युग के लिए आवश्यक मल्टीमॉडल नींव प्रदान करता है। हम यह देखने के लिए उत्सुक हैं कि आप क्या बनाते हैं।

Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind

समझने के लिए और पैटर्न

हाल के वायरल लेख

और वायरल लेख देखें