Crea agentes conversacionales en tiempo real con Gemini 3.1 Flash Live

Hoy lanzamos Gemini 3.1 Flash Live a través de la API de Gemini Live en Google AI Studio. Gemini 3.1 Flash Live ayuda a los desarrolladores a crear agentes de voz y visión en tiempo real que no solo pueden procesar el mundo que los rodea, sino también responder a la velocidad de una conversación.

Esto supone un cambio radical en latencia, fiabilidad y diálogos más naturales, ofreciendo la calidad necesaria para la próxima generación de IA centrada en la voz.

Experimenta una latencia, fiabilidad y calidad mejoradas

En las interacciones en tiempo real, cada milisegundo de latencia rompe el flujo natural de la conversación que los usuarios esperan. El nuevo modelo comprende mejor el tono, el énfasis y la intención, lo que permite a los agentes contar con mejoras clave:

Mayor tasa de finalización de tareas en entornos ruidosos y reales: Hemos mejorado significativamente la capacidad del modelo para activar herramientas externas y entregar información durante conversaciones en vivo. Al discernir mejor el habla relevante de los sonidos ambientales como el tráfico o la televisión, el modelo filtra el ruido de fondo de manera más efectiva para mantenerse fiable y receptivo a las instrucciones.
Mejor seguimiento de instrucciones: La adherencia a instrucciones complejas del sistema se ha incrementado notablemente. Tu agente se mantendrá dentro de sus límites operativos, incluso cuando las conversaciones tomen giros inesperados.
Diálogo más natural y de baja latencia: El último modelo mejora la latencia y es aún más eficaz para reconocer matices acústicos como el tono y el ritmo en comparación con 2.5 Flash Native Audio, haciendo que las conversaciones en tiempo real se sientan mucho más fluidas y naturales.
Capacidades multilingües: El modelo admite más de 90 idiomas para conversaciones multimodales en tiempo real.

Ve la API de Gemini Live en acción

Los desarrolladores ya están creando agentes de voz que se comunican con un flujo y ritmo naturales y realizan acciones de forma fiable con los modelos Gemini Flash Live. Aquí tienes algunos ejemplos de aplicaciones reales que utilizan el modelo para impulsar sus interacciones conversacionales:

Stitch

Usando la API de Gemini Live, Stitch ahora permite a sus usuarios diseñar con la voz. El agente puede 'ver' el lienzo y las pantallas seleccionadas, ofrecer críticas de diseño, crear variaciones y más.

Hey Ato

En esta demostración, el dispositivo compañero de IA para adultos mayores, Ato, utiliza las capacidades multilingües de Gemini 3.1 Flash Live para convertir las conversaciones diarias en conexiones reales para sus usuarios.

Wits End

Mira cómo el equipo de Weekend integra la fuerte caracterización y la entrega humana de Gemini 3.1 Flash Live para añadir un toque teatral único al Game Master en su RPG - Wit’s end.

0:52

Construye con un ecosistema de integraciones en expansión

La API de Live está diseñada para entornos de producción, pero los sistemas del mundo real requieren manejar diversas entradas, desde transmisiones de video en vivo hasta llamadas telefónicas bajo demanda.

Para sistemas que requieren escalado WebRTC o enrutamiento global perimetral, te recomendamos explorar nuestras integraciones de socios para agilizar el desarrollo de agentes de voz y video en tiempo real.

Comienza con la API de Live

Gemini 3.1 Flash Live está disponible a partir de hoy a través de la API de Gemini y en Google AI Studio. Los desarrolladores pueden usar la API de Live de Gemini para integrar el modelo en su aplicación.

Mira este

tutorial en video

para crear agentes de voz con Gemini 3:

Explora nuestra documentación para desarrolladores para aprender cómo puedes crear agentes en tiempo real.

Documentación de la API de Live de Gemini: Explora funciones como soporte multilingüe, uso de herramientas y llamadas a funciones, gestión de sesiones (para manejar conversaciones largas) y tokens efímeros.
Ejemplos de la API de Live de Gemini: Inspírate con el tipo de experiencias de voz que puedes crear hoy con el modelo.
Skill de la API de Gemini Live: Para que los agentes de codificación aprendan y construyan con la API de Live.

Comienza con el SDK de Google GenAI:

python

1import asyncio
2from google import genai
3
4client = genai.Client(api_key="YOUR_API_KEY")
5
6model = "gemini-3.1-flash-live-preview"
7config = {"response_modalities": ["AUDIO"]}
8
9async def main():
10    async with client.aio.live.connect(model=model, config=config) as session:
11        print("Session started")
12        # Send content...
13
14if __name__ == "__main__":
15    asyncio.run(main())

Experimenta una latencia, fiabilidad y calidad mejoradas