Gemini Embedding 2: Google 최초의 네이티브 멀티모달 임베딩 모델

Gemini Embedding 2 는 텍스트, 이미지, 비디오, 오디오 및 문서를 단일 임베딩 공간에 매핑하는 Google 의 첫 번째 네이티브 멀티모달 임베딩 모델로, 다양한 미디어 유형에 걸친 멀티모달 검색 및 분류를 가능하게 합니다. 현재 공개 프리뷰로 제공됩니다.

오늘 저희는 Gemini 아키텍처를 기반으로 구축된 최초의 완전한 멀티모달 임베딩 모델인 Gemini Embedding 2 를 Gemini API 및 Vertex AI를 통해 공개 프리뷰로 출시합니다.

이전의 텍스트 전용 기반을 확장하여, Gemini Embedding 2 는 텍스트, 이미지, 비디오, 오디오 및 문서를 단일 통합 임베딩 공간에 매핑하고 100 개 이상의 언어에 걸친 의미적 의도를 포착합니다. 이는 복잡한 파이프라인을 단순화하고 검색 증강 생성(RAG), 의미 검색부터 감정 분석 및 데이터 클러스터링에 이르기까지 다양한 멀티모달 다운스트림 작업을 향상시킵니다.

새로운 모달리티와 유연한 출력 차원

이 모델은 Gemini 를 기반으로 하며 최고 수준의 멀티모달 이해 기능을 활용하여 다음 분야에서 고품질 임베딩을 생성합니다:

텍스트: 최대 8192 개의 입력 토큰을 지원하는 광범위한 컨텍스트 지원
이미지: 요청당 최대 6 개의 이미지 처리 가능, PNG 및 JPEG 형식 지원
비디오: MP4 및 MOV 형식의 최대 120 초 비디오 입력 지원
오디오: 중간 텍스트 변환 없이 오디오 데이터를 네이티브로 수집 및 임베딩
문서: 최대 6 페이지 길이의 PDF 를 직접 임베딩

한 번에 하나의 모달리티를 처리하는 것을 넘어, 이 모델은 인터리브된 입력을 네이티브로 이해하므로 단일 요청에서 여러 모달리티(예: 이미지 + 텍스트)를 전달할 수 있습니다. 이를 통해 모델은 다양한 미디어 유형 간의 복잡하고 미묘한 관계를 포착하여 복잡한 실제 데이터에 대한 더 정확한 이해를 가능하게 합니다.

0:37

이전 임베딩 모델과 마찬가지로, Gemini Embedding 2 는 차원을 동적으로 축소하여 정보를 "중첩"하는 기술인 Matryoshka Representation Learning(MRL)을 통합합니다. 이를 통해 기본값 3072 에서 축소되는 유연한 출력 차원을 가능하게 하여 개발자가 성능과 스토리지 비용의 균형을 맞출 수 있습니다. 최고 품질을 위해 3072, 1536, 768 차원을 사용하는 것을 권장합니다.

최첨단 성능

Gemini Embedding 2 는 단순히 레거시 모델을 개선하는 데 그치지 않습니다. 멀티모달 깊이에 대한 새로운 성능 기준을 수립하며, 강력한 음성 기능을 도입하고 텍스트, 이미지 및 비디오 작업에서 선도적인 모델을 능가합니다. 이러한 측정 가능한 개선과 독특한 멀티모달 커버리지는 개발자에게 다양한 임베딩 요구 사항에 필요한 것을 정확히 제공합니다.

데이터의 더 깊은 의미 활용하기

임베딩은 많은 Google 제품에서 경험을 구동하는 기술입니다. 임베딩이 컨텍스트 엔지니어링에서 중요한 역할을 할 수 있는 RAG 부터 대규모 데이터 관리 및 기존 검색/분석에 이르기까지, 일부 얼리 액세스 파트너는 이미 Gemini Embedding 2 를 사용하여 고부가가치 멀티모달 애플리케이션을 활용하고 있습니다:

*"저희는 법률 전문가들이 소송 중 증거 개시 과정에서 중요한 정보를 찾을 수 있도록 Gemini 임베딩을 선택했습니다. 이는 매우 기술적인 도전 과제이며, 높은 이해관계가 걸린 환경에서 Gemini 가 탁월한 성과를 보이는 분야입니다. 최근 테스트에서 Gemini 의 멀티모달 임베딩 모델은 수백만 개의 레코드에 걸쳐 정밀도와 재현율을 향상시키는 동시에 이미지와 비디오에 대한 강력한 새로운 검색 기능을 제공합니다. 법률 전문가들에게 이러한 새로운 기능은 가장 큰 사건에서도 사건 자료를 신속하게 이해할 수 있는 완전히 새로운 방법을 열어줍니다."

*

**Max Christoff

CTO

Everlaw**

"Gemini Embedding 2 는 Sparkonomy 의 크리에이터 경제 평등 엔진의 기반입니다. 네이티브 멀티모달리티는 LLM 추론을 제거하여 지연 시간을 최대 70% 단축하고 텍스트-이미지 및 텍스트-비디오 쌍에 대한 의미 유사도 점수를 0.4 에서 0.8 로 거의 두 배로 높입니다. 이는 독점적인 Creator Genome 이 수백만 분의 비디오를 이미지 및 텍스트와 함께 전례 없는 정밀도로 인덱싱하여 편향되지 않은 브랜드 협업을 가능하게 하고 모든 크리에이터를 위한 경제적 성공을 민주화할 수 있게 해줍니다."

**Guneet Singh

공동 창업자

Sparkonomy**

"API 연속성이 뛰어납니다. Gemini Embedding 2 는 최소한의 변경만으로 기존 워크플로우에 바로 통합됩니다. 저희는 텍스트 기반 대화 기억을 오디오 및 시각적 임베딩, 특히 어시스턴트 질문-답변 쌍과 함께 임베딩하는 새로운 방법을 테스트 중이며, 개인 웰니스 앱에서 상위 1 개 재현율이 20% 향상되는 것을 확인하고 있습니다."

**Ertuğrul Çavuşoğlu

공동 창업자

Mindlid**

지금 바로 구축 시작하기

Gemini API 또는 Vertex AI를 통해 Gemini Embedding 2 모델을 시작해보세요.

python

1from google import genai
2from google.genai import types
3
4# For Vertex AI:
5# PROJECT_ID='<add_here>'
6# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')
7
8client = genai.Client()
9
10with open("example.png", "rb") as f:
11    image_bytes = f.read()
12
13with open("sample.mp3", "rb") as f:
14    audio_bytes = f.read()
15
16# Embed text, image, and audio
17result = client.models.embed_content(
18    model="gemini-embedding-2-preview",
19    contents=[
20        "What is the meaning of life?",
21        types.Part.from_bytes(
22            data=image_bytes,
23            mime_type="image/png",
24        ),
25        types.Part.from_bytes(
26            data=audio_bytes,
27            mime_type="audio/mpeg",
28        ),
29    ],
30)
31
32print(result.embeddings)

대화형 Gemini API 및 Vertex AI Colab 노트북에서 모델 사용 방법을 알아보세요. 또한 LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB 및 Vector Search를 통해서도 사용할 수 있습니다.

주변의 다양한 데이터에 의미를 부여함으로써, Gemini Embedding 2 는 차세대 고급 AI 경험을 위한 필수적인 멀티모달 기반을 제공합니다. 여러분이 무엇을 구축하실지 정말 기대됩니다.

새로운 모달리티와 유연한 출력 차원

최첨단 성능

데이터의 더 깊은 의미 활용하기

지금 바로 구축 시작하기

Use YouMind to read viral articles deeply

최근 바이럴 아티클

주 5일, 하루 8시간 근무가 힘들었던 건 체력이나 의지력의 문제가 아니었다

Stop Being the Loop: How to Make Claude Work While You Sleep

I Made My Hermes Agent 10x Faster Without Changing the Model

Tokenomics Update

Let It Crash: How to Steer What Comes After

Wiki Memory