Gemini Embedding 2: Nuestro primer modelo de embedding nativamente multimodal

Gemini Embedding 2 es nuestro primer modelo de embeddings multimodal nativo que mapea texto, imágenes, video, audio y documentos en un único espacio de embeddings, permitiendo la recuperación y clasificación multimodal a través de diferentes tipos de medios — y ya está disponible en vista previa pública.

Hoy lanzamos Gemini Embedding 2, nuestro primer modelo de embeddings completamente multimodal construido sobre la arquitectura Gemini, en Vista Previa Pública a través de la API de Gemini y Vertex AI.

Ampliando nuestra base anterior solo de texto, Gemini Embedding 2 mapea texto, imágenes, videos, audio y documentos en un único espacio de embeddings unificado, y captura la intención semántica en más de 100 idiomas. Esto simplifica pipelines complejos y mejora una amplia variedad de tareas multimodales posteriores, desde Generación Aumentada por Recuperación (RAG) y búsqueda semántica hasta análisis de sentimientos y agrupación de datos.

Nuevas modalidades y dimensiones de salida flexibles

El modelo está basado en Gemini y aprovecha sus capacidades de comprensión multimodal de primer nivel para crear embeddings de alta calidad en:

Texto: admite un contexto amplio de hasta 8192 tokens de entrada
Imágenes: capaz de procesar hasta 6 imágenes por solicitud, compatible con formatos PNG y JPEG
Videos: admite hasta 120 segundos de entrada de video en formatos MP4 y MOV
Audio: ingiere e incrusta datos de audio de forma nativa sin necesidad de transcripciones de texto intermedias
Documentos: incrusta directamente archivos PDF de hasta 6 páginas

Además de procesar una modalidad a la vez, este modelo entiende de forma nativa la entrada intercalada, por lo que puedes pasar múltiples modalidades de entrada (por ejemplo, imagen + texto) en una sola solicitud. Esto permite que el modelo capture las relaciones complejas y matizadas entre diferentes tipos de medios, desbloqueando una comprensión más precisa de datos complejos del mundo real.

0:37

Al igual que nuestros modelos de embeddings anteriores, Gemini Embedding 2 incorpora el Aprendizaje de Representación Matryoshka (MRL), una técnica que "anida" la información escalando dinámicamente las dimensiones. Esto permite dimensiones de salida flexibles que se reducen desde el valor predeterminado de 3072, para que los desarrolladores puedan equilibrar el rendimiento y los costos de almacenamiento. Recomendamos usar dimensiones de 3072, 1536, 768 para la máxima calidad.

Rendimiento de vanguardia

Gemini Embedding 2 no solo mejora los modelos anteriores. Establece un nuevo estándar de rendimiento para la profundidad multimodal, introduciendo sólidas capacidades de voz y superando a los modelos líderes en tareas de texto, imagen y video. Esta mejora medible y la cobertura multimodal única brindan a los desarrolladores exactamente lo que necesitan para sus diversas necesidades de embeddings.

Desbloqueando un significado más profundo para los datos

Los embeddings son la tecnología que impulsa las experiencias en muchos productos de Google. Desde RAG, donde los embeddings pueden desempeñar un papel crucial en la ingeniería de contexto, hasta la gestión de datos a gran escala y la búsqueda/análisis clásicos, algunos de nuestros socios de acceso temprano ya están usando Gemini Embedding 2 para desbloquear aplicaciones multimodales de alto valor:

*"Elegimos los embeddings de Gemini para ayudar a los profesionales legales a encontrar información crítica durante el proceso de descubrimiento en litigios, un desafío altamente técnico en un entorno de alto riesgo, y uno en el que Gemini sobresale. En nuestras pruebas más recientes, el modelo de embedding multimodal de Gemini mejora la precisión y el recall en millones de registros, mientras desbloquea una potente funcionalidad de búsqueda para imágenes y videos. Para los profesionales legales, estas nuevas capacidades abren formas completamente novedosas de entender rápidamente los materiales del caso, incluso en los asuntos más grandes."

*

**Max Christoff

CTO

Everlaw**

"Gemini Embedding 2 es la base del Motor de Igualdad Económica para Creadores de Sparkonomy. Su multimodalidad nativa reduce nuestra latencia hasta en un 70% al eliminar la inferencia de LLM y casi duplica las puntuaciones de similitud semántica para pares de texto-imagen y texto-video, saltando de 0.4 a 0.8. Esto impulsa nuestro Genoma del Creador propietario para indexar millones de minutos de video, junto con imágenes y texto, con una precisión sin precedentes, desbloqueando colaboraciones de marca imparciales y democratizando el éxito económico para cada creador."

**Guneet Singh

Co-fundador

Sparkonomy**

"La continuidad de la API es excelente. Gemini Embedding 2 se integra directamente en nuestro flujo de trabajo actual con cambios mínimos. Estamos probando nuevas formas de incrustar recuerdos conversacionales basados en texto junto con embeddings de audio y visuales, especialmente pares de preguntas y respuestas de asistentes, y estamos viendo un aumento del 20% en el recall top-1 para nuestra aplicación de bienestar personal."

**Ertuğrul Çavuşoğlu

Co-fundador

Mindlid**

Comienza a construir hoy

Comienza con el modelo Gemini Embedding 2 a través de la API de Gemini o Vertex AI.

python

1from google import genai
2from google.genai import types
3
4# Para Vertex AI:
5# PROJECT_ID='<add_here>'
6# client = genai.Client(vertexai=True, project=PROJECT_ID, location='us-central1')
7
8client = genai.Client()
9
10with open("example.png", "rb") as f:
11    image_bytes = f.read()
12
13with open("sample.mp3", "rb") as f:
14    audio_bytes = f.read()
15
16# Incrustar texto, imagen y audio
17result = client.models.embed_content(
18    model="gemini-embedding-2-preview",
19    contents=[
20        "¿Cuál es el sentido de la vida?",
21        types.Part.from_bytes(
22            data=image_bytes,
23            mime_type="image/png",
24        ),
25        types.Part.from_bytes(
26            data=audio_bytes,
27            mime_type="audio/mpeg",
28        ),
29    ],
30)
31
32print(result.embeddings)

Aprende a usar el modelo en nuestros cuadernos interactivos de Colab para la API de Gemini y Vertex AI. También puedes usarlo a través de LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB y Vector Search.

Al aportar significado semántico a los diversos datos que nos rodean, Gemini Embedding 2 proporciona la base multimodal esencial para la próxima era de experiencias avanzadas de IA. Estamos ansiosos por ver lo que construirás.

Nuevas modalidades y dimensiones de salida flexibles

Rendimiento de vanguardia

Desbloqueando un significado más profundo para los datos

Comienza a construir hoy

Use YouMind to read viral articles deeply

Artículos virales recientes

Memoria Wiki

27 configuraciones para transformar Claude Code en un sistema de agentes autónomos

Necesitamos caballeros templarios para el pensamiento de primeros principios

El boletín de junio de GOAT

AWS nombra a Anduril como proveedor preferente de tecnología de borde para la seguridad nacional

Trabajo manual intelectual: una forma de aumentar los activos intangibles mientras recibes un pago