Gemini Embedding 2 हमारा पहला मूल रूप से मल्टीमॉडल एम्बेडिंग मॉडल है जो टेक्स्ट, इमेज, वीडियो, ऑडियो और दस्तावेज़ों को एक ही एम्बेडिंग स्पेस में मैप करता है, जिससे विभिन्न प्रकार के मीडिया में मल्टीमॉडल रिट्रीवल और वर्गीकरण संभव होता है — और यह अब पब्लिक प्रीव्यू में उपलब्ध है।
आज हम Gemini Embedding 2 जारी कर रहे हैं, जो Gemini आर्किटेक्चर पर बनाया गया हमारा पहला पूरी तरह से मल्टीमॉडल एम्बेडिंग मॉडल है, जो Gemini API और Vertex AI के माध्यम से पब्लिक प्रीव्यू में उपलब्ध है।
हमारे पिछले केवल-टेक्स्ट फाउंडेशन का विस्तार करते हुए, Gemini Embedding 2 टेक्स्ट, इमेज, वीडियो, ऑडियो और दस्तावेज़ों को एक एकीकृत एम्बेडिंग स्पेस में मैप करता है, और 100 से अधिक भाषाओं में सिमैंटिक इंटेंट को कैप्चर करता है। यह जटिल पाइपलाइनों को सरल बनाता है और विभिन्न प्रकार के मल्टीमॉडल डाउनस्ट्रीम कार्यों को बढ़ाता है—रिट्रीवल-ऑगमेंटेड जनरेशन (RAG) और सिमैंटिक सर्च से लेकर सेंटीमेंट एनालिसिस और डेटा क्लस्टरिंग तक।
नए मोडैलिटी और लचीले आउटपुट आयाम
मॉडल Gemini पर आधारित है और उच्च गुणवत्ता वाले एम्बेडिंग बनाने के लिए इसकी बेस्ट-इन-क्लास मल्टीमॉडल समझ क्षमताओं का लाभ उठाता है:
- टेक्स्ट: 8192 इनपुट टोकन तक का विस्तृत संदर्भ समर्थन करता है
- इमेज: प्रति अनुरोध 6 इमेज तक प्रोसेस करने में सक्षम, PNG और JPEG फॉर्मेट सपोर्ट करता है
- वीडियो: MP4 और MOV फॉर्मेट में 120 सेकंड तक के वीडियो इनपुट का समर्थन करता है
- ऑडियो: बिना मध्यवर्ती टेक्स्ट ट्रांसक्रिप्शन की आवश्यकता के ऑडियो डेटा को मूल रूप से इन्जेस्ट और एम्बेड करता है
- दस्तावेज़: 6 पेज तक के PDF को सीधे एम्बेड करता है
एक समय में एक मोडैलिटी प्रोसेस करने के अलावा, यह मॉडल मूल रूप से इंटरलीव्ड इनपुट को समझता है, ताकि आप एक ही अनुरोध में इनपुट की कई मोडैलिटी (जैसे, इमेज + टेक्स्ट) पास कर सकें। यह मॉडल को विभिन्न मीडिया प्रकारों के बीच जटिल, सूक्ष्म संबंधों को कैप्चर करने की अनुमति देता है, जिससे जटिल, वास्तविक दुनिया के डेटा की अधिक सटीक समझ प्राप्त होती है।
0:37
हमारे पिछले एम्बेडिंग मॉडल की तरह, Gemini Embedding 2 में Matryoshka Representation Learning (MRL) शामिल है, एक तकनीक जो आयामों को गतिशील रूप से स्केल करके जानकारी को 'नेस्ट' करती है। यह डिफ़ॉल्ट 3072 से नीचे लचीले आउटपुट आयामों को सक्षम बनाता है, ताकि डेवलपर्स प्रदर्शन और स्टोरेज लागत को संतुलित कर सकें। हम उच्चतम गुणवत्ता के लिए 3072, 1536, 768 आयामों का उपयोग करने की सलाह देते हैं।
अत्याधुनिक प्रदर्शन
Gemini Embedding 2 केवल पुराने मॉडलों में सुधार नहीं करता है। यह मल्टीमॉडल गहराई के लिए एक नया प्रदर्शन मानक स्थापित करता है, मजबूत स्पीच क्षमताओं को पेश करता है और टेक्स्ट, इमेज और वीडियो कार्यों में अग्रणी मॉडलों से बेहतर प्रदर्शन करता है। यह मापने योग्य सुधार और अद्वितीय मल्टीमॉडल कवरेज डेवलपर्स को उनकी विविध एम्बेडिंग आवश्यकताओं के लिए बिल्कुल वही देता है जिसकी उन्हें आवश्यकता है।

डेटा के लिए गहरा अर्थ अनलॉक करना
एम्बेडिंग वह तकनीक है जो कई Google उत्पादों में अनुभवों को संचालित करती है। RAG से, जहां एम्बेडिंग संदर्भ इंजीनियरिंग में महत्वपूर्ण भूमिका निभा सकते हैं, बड़े पैमाने पर डेटा प्रबंधन और क्लासिक सर्च/एनालिसिस तक, हमारे कुछ अर्ली एक्सेस पार्टनर पहले से ही Gemini Embedding 2 का उपयोग करके उच्च-मूल्य वाले मल्टीमॉडल एप्लिकेशन को अनलॉक कर रहे हैं:
"हमने कानूनी पेशेवरों को मुकदमेबाजी में डिस्कवरी प्रक्रिया के दौरान महत्वपूर्ण जानकारी खोजने में मदद करने के लिए Gemini एम्बेडिंग को चुना -- एक अत्यधिक तकनीकी चुनौती जो उच्च-दांव वाली सेटिंग में है, और एक ऐसा क्षेत्र जहां Gemini उत्कृष्ट है। हमारे सबसे हाल के परीक्षणों में, Gemini का मल्टी-मॉडल एम्बेडिंग मॉडल लाखों रिकॉर्ड्स में प्रिसिजन और रिकॉल में सुधार करता है, साथ ही इमेज और वीडियो के लिए शक्तिशाली नई सर्च कार्यक्षमता को अनलॉक करता है। कानूनी पेशेवरों के लिए, ये नई क्षमताएं सबसे बड़े मामलों में भी केस सामग्री को जल्दी से समझने के पूरी तरह से नए तरीके खोलती हैं।"
*
**Max Christoff
CTO
Everlaw**
"Gemini Embedding 2, Sparkonomy के Creator Economic Equality Engine की नींव है। इसकी मूल मल्टी-मोडैलिटी LLM इन्फ्रेंस को हटाकर हमारी लेटेंसी को 70% तक कम कर देती है और टेक्स्ट-इमेज और टेक्स्ट-वीडियो जोड़ियों के लिए सिमैंटिक समानता स्कोर को लगभग दोगुना कर देती है—0.4 से 0.8 तक छलांग लगाते हुए। यह हमारे मालिकाना Creator Genome को लाखों मिनट के वीडियो, इमेज और टेक्स्ट के साथ अभूतपूर्व सटीकता के साथ इंडेक्स करने की शक्ति देता है—निष्पक्ष ब्रांड सहयोग को अनलॉक करता है और हर क्रिएटर के लिए आर्थिक सफलता को लोकतांत्रिक बनाता है।"
**Guneet Singh
Co-founder
Sparkonomy**
"API निरंतरता उत्कृष्ट है। Gemini Embedding 2 न्यूनतम बदलावों के साथ हमारे मौजूदा वर्कफ़्लो में सीधे फिट हो जाता है। हम टेक्स्ट-आधारित संवादी यादों को ऑडियो और विज़ुअल एम्बेडिंग के साथ एम्बेड करने के नए तरीकों का परीक्षण कर रहे हैं, विशेष रूप से असिस्टेंट प्रश्न-उत्तर जोड़ियों का, और अपने पर्सनल वेलनेस ऐप के लिए टॉप-1 रिकॉल में 20% की वृद्धि देख रहे हैं।"
**Ertuğrul Çavuşoğlu
Co-founder
Mindlid**
आज ही बनाना शुरू करें
Gemini Embedding 2 मॉडल के साथ Gemini API या Vertex AI के माध्यम से शुरुआत करें।
1from google import genai2from google.genai import types34# Vertex AI के लिए:5# PROJECT_ID='<add_here>'6# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')78client = genai.Client()910with open("example.png", "rb") as f:11 image_bytes = f.read()1213with open("sample.mp3", "rb") as f:14 audio_bytes = f.read()1516# टेक्स्ट, इमेज और ऑडियो एम्बेड करें17result = client.models.embed_content(18 model="gemini-embedding-2-preview",19 contents=[20 "जीवन का अर्थ क्या है?",21 types.Part.from_bytes(22 data=image_bytes,23 mime_type="image/png",24 ),25 types.Part.from_bytes(26 data=audio_bytes,27 mime_type="audio/mpeg",28 ),29 ],30)3132print(result.embeddings)
हमारे इंटरैक्टिव Gemini API और Vertex AI Colab नोटबुक में मॉडल का उपयोग करना सीखें। आप इसे LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB, और Vector Search के माध्यम से भी उपयोग कर सकते हैं।
हमारे आसपास के विविध डेटा में सिमैंटिक अर्थ लाकर, Gemini Embedding 2 उन्नत AI अनुभवों के अगले युग के लिए आवश्यक मल्टीमॉडल नींव प्रदान करता है। हम यह देखने के लिए उत्सुक हैं कि आप क्या बनाते हैं।






