Crea agentes conversacionales en tiempo real con Gemini 3.1 Flash Live

@GoogleAIStudio
INGLÉShace 3 meses · 26 mar 2026
2.7M
2.4K
341
72
4.8K

TL;DR

Google lanza Gemini 3.1 Flash Live, un modelo de baja latencia para interacciones de voz y visión en tiempo real, que cuenta con un seguimiento de instrucciones mejorado y soporte para más de 90 idiomas.

Hoy lanzamos Gemini 3.1 Flash Live a través de la API de Gemini Live en Google AI Studio. Gemini 3.1 Flash Live ayuda a los desarrolladores a crear agentes de voz y visión en tiempo real que no solo pueden procesar el mundo que los rodea, sino también responder a la velocidad de una conversación.

Esto supone un cambio radical en latencia, fiabilidad y diálogos más naturales, ofreciendo la calidad necesaria para la próxima generación de IA centrada en la voz.

Experimenta una latencia, fiabilidad y calidad mejoradas

En las interacciones en tiempo real, cada milisegundo de latencia rompe el flujo natural de la conversación que los usuarios esperan. El nuevo modelo comprende mejor el tono, el énfasis y la intención, lo que permite a los agentes contar con mejoras clave:

  • Mayor tasa de finalización de tareas en entornos ruidosos y reales: Hemos mejorado significativamente la capacidad del modelo para activar herramientas externas y entregar información durante conversaciones en vivo. Al discernir mejor el habla relevante de los sonidos ambientales como el tráfico o la televisión, el modelo filtra el ruido de fondo de manera más efectiva para mantenerse fiable y receptivo a las instrucciones.
  • Mejor seguimiento de instrucciones: La adherencia a instrucciones complejas del sistema se ha incrementado notablemente. Tu agente se mantendrá dentro de sus límites operativos, incluso cuando las conversaciones tomen giros inesperados.
  • Diálogo más natural y de baja latencia: El último modelo mejora la latencia y es aún más eficaz para reconocer matices acústicos como el tono y el ritmo en comparación con 2.5 Flash Native Audio, haciendo que las conversaciones en tiempo real se sientan mucho más fluidas y naturales.
  • Capacidades multilingües: El modelo admite más de 90 idiomas para conversaciones multimodales en tiempo real.

Ve la API de Gemini Live en acción

Los desarrolladores ya están creando agentes de voz que se comunican con un flujo y ritmo naturales y realizan acciones de forma fiable con los modelos Gemini Flash Live. Aquí tienes algunos ejemplos de aplicaciones reales que utilizan el modelo para impulsar sus interacciones conversacionales:

Stitch

Usando la API de Gemini Live, Stitch ahora permite a sus usuarios diseñar con la voz. El agente puede 'ver' el lienzo y las pantallas seleccionadas, ofrecer críticas de diseño, crear variaciones y más.

Google AI Studio - inline image

Hey Ato

En esta demostración, el dispositivo compañero de IA para adultos mayores, Ato, utiliza las capacidades multilingües de Gemini 3.1 Flash Live para convertir las conversaciones diarias en conexiones reales para sus usuarios.

Google AI Studio - inline image

Wits End

Mira cómo el equipo de Weekend integra la fuerte caracterización y la entrega humana de Gemini 3.1 Flash Live para añadir un toque teatral único al Game Master en su RPG - Wit’s end.

Google AI Studio - inline image

0:52

Construye con un ecosistema de integraciones en expansión

La API de Live está diseñada para entornos de producción, pero los sistemas del mundo real requieren manejar diversas entradas, desde transmisiones de video en vivo hasta llamadas telefónicas bajo demanda.

Para sistemas que requieren escalado WebRTC o enrutamiento global perimetral, te recomendamos explorar nuestras integraciones de socios para agilizar el desarrollo de agentes de voz y video en tiempo real.

Google AI Studio - inline image

Comienza con la API de Live

Gemini 3.1 Flash Live está disponible a partir de hoy a través de la API de Gemini y en Google AI Studio. Los desarrolladores pueden usar la API de Live de Gemini para integrar el modelo en su aplicación.

Mira este


tutorial en video

para crear agentes de voz con Gemini 3:

Explora nuestra documentación para desarrolladores para aprender cómo puedes crear agentes en tiempo real.

  • Documentación de la API de Live de Gemini: Explora funciones como soporte multilingüe, uso de herramientas y llamadas a funciones, gestión de sesiones (para manejar conversaciones largas) y tokens efímeros.
  • Ejemplos de la API de Live de Gemini: Inspírate con el tipo de experiencias de voz que puedes crear hoy con el modelo.
  • Skill de la API de Gemini Live: Para que los agentes de codificación aprendan y construyan con la API de Live.

Comienza con el SDK de Google GenAI:

python
1import asyncio
2from google import genai
3
4client = genai.Client(api_key="YOUR_API_KEY")
5
6model = "gemini-3.1-flash-live-preview"
7config = {"response_modalities": ["AUDIO"]}
8
9async def main():
10 async with client.aio.live.connect(model=model, config=config) as session:
11 print("Session started")
12 # Send content...
13
14if __name__ == "__main__":
15 asyncio.run(main())
Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind
Para creadores

Convierte tu Markdown en un artículo de 𝕏 impecable

Cuando publicas tus propios textos largos, dar formato en 𝕏 a imágenes, tablas y bloques de código es un fastidio. YouMind convierte un borrador completo en Markdown en un artículo de 𝕏 impecable y listo para publicar.

Prueba Markdown a 𝕏

Más patrones por descifrar

Artículos virales recientes

Explorar más artículos virales