Crie agentes de conversação em tempo real com o Gemini 3.1 Flash Live

Hoje, estamos lançando o Gemini 3.1 Flash Live **via Gemini Live API no Google AI Studio. O Gemini 3.1 Flash Live ajuda desenvolvedores a criar agentes de voz e visão em tempo real que não apenas processam o mundo ao seu redor, mas também respondem na velocidade de uma conversa.

Isso representa uma mudança significativa em latência, confiabilidade e diálogo mais natural, oferecendo a qualidade necessária para a próxima geração de IA com foco em voz.

Experimente latência, confiabilidade e qualidade aprimoradas

Para interações em tempo real, cada milissegundo de latência prejudica o fluxo natural da conversa que os usuários esperam. O novo modelo entende melhor tom, ênfase e intenção, permitindo agentes com melhorias importantes:

Maiores taxas de conclusão de tarefas em ambientes ruidosos do mundo real: Melhoramos significativamente a capacidade do modelo de acionar ferramentas externas e fornecer informações durante conversas ao vivo. Ao discernir melhor a fala relevante de sons ambientais como trânsito ou televisão, o modelo filtra o ruído de fundo de forma mais eficaz para permanecer confiável e responsivo às instruções.
Melhor seguimento de instruções: A adesão a instruções complexas do sistema foi significativamente aprimorada. Seu agente permanecerá dentro de suas diretrizes operacionais, mesmo quando as conversas tomarem rumos inesperados.
Diálogo mais natural e de baixa latência: O modelo mais recente melhora a latência e é ainda mais eficaz no reconhecimento de nuances acústicas como tom e ritmo em comparação com o 2.5 Flash Native Audio, tornando as conversas em tempo real muito mais fluidas e naturais.
Capacidades multilíngues: O modelo suporta mais de 90 idiomas para conversas multimodais em tempo real.

Veja a Gemini Live API em ação

Os desenvolvedores estão criando ativamente agentes de voz que se comunicam com um fluxo e ritmo naturais e executam ações de forma confiável com os modelos Gemini Flash Live. Aqui estão alguns exemplos de aplicativos do mundo real que usam o modelo para potencializar suas interações conversacionais:

Stitch

Usando a Gemini Live API, o Stitch agora permite que seus usuários criem designs com a voz. O agente pode 'ver' a tela e as telas selecionadas e fornecer críticas de design, criar variações e muito mais.

Hey Ato

Nesta demonstração, o dispositivo companheiro de IA para idosos, Ato, usa as capacidades multilíngues do Gemini 3.1 Flash Live para transformar conversas diárias em conexões reais para seus usuários.

Wits End

Veja como a equipe Weekend integra a forte caracterização e a entrega humanizada do Gemini 3.1 Flash Live para adicionar um toque teatral único ao Mestre do Jogo em seu RPG - Wit’s end.

0:52

Construa com um ecossistema crescente de integrações

A Live API é construída para ambientes de produção, mas sistemas do mundo real exigem o tratamento de diversas entradas, desde streams de vídeo ao vivo até chamadas telefônicas sob demanda.

Para sistemas que exigem escalabilidade WebRTC ou roteamento global de borda, recomendamos explorar nossas integrações de parceiros para agilizar o desenvolvimento de agentes de voz e vídeo em tempo real.

Comece com a Live API**

O Gemini 3.1 Flash Live está disponível a partir de hoje através da Gemini API e no Google AI Studio. Os desenvolvedores podem usar a Gemini Live API para integrar o modelo em seus aplicativos.

Confira este

tutorial em vídeo

para construir agentes de voz com Gemini 3:

Explore nossa documentação para desenvolvedores para aprender como construir agentes em tempo real.

Documentação da Gemini Live API: Explore recursos como suporte multilíngue, uso de ferramentas e chamada de funções, gerenciamento de sessão (para gerenciar conversas longas) e tokens efêmeros.
Exemplos da Gemini Live API: Inspire-se com o tipo de experiências de voz que você pode construir hoje com o modelo.
Gemini Live API Skill: Para agentes de codificação aprenderem e construírem com a Live API.

Comece com o Google GenAI SDK:

python

1import asyncio
2from google import genai
3
4client = genai.Client(api_key="YOUR_API_KEY")
5
6model = "gemini-3.1-flash-live-preview"
7config = {"response_modalities": ["AUDIO"]}
8
9async def main():
10    async with client.aio.live.connect(model=model, config=config) as session:
11        print("Session started")
12        # Send content...
13
14if __name__ == "__main__":
15    asyncio.run(main())

Experimente latência, confiabilidade e qualidade aprimoradas