Crie agentes de conversação em tempo real com o Gemini 3.1 Flash Live

@GoogleAIStudio
INGLÊShá 3 meses · 26/03/2026
2.7M
2.4K
341
72
4.8K

TL;DR

O Google lança o Gemini 3.1 Flash Live, um modelo de baixa latência para interações de voz e visão em tempo real, com melhor seguimento de instruções e suporte para mais de 90 idiomas.

Hoje, estamos lançando o Gemini 3.1 Flash Live **via Gemini Live API no Google AI Studio. O Gemini 3.1 Flash Live ajuda desenvolvedores a criar agentes de voz e visão em tempo real que não apenas processam o mundo ao seu redor, mas também respondem na velocidade de uma conversa.

Isso representa uma mudança significativa em latência, confiabilidade e diálogo mais natural, oferecendo a qualidade necessária para a próxima geração de IA com foco em voz.

Experimente latência, confiabilidade e qualidade aprimoradas

Para interações em tempo real, cada milissegundo de latência prejudica o fluxo natural da conversa que os usuários esperam. O novo modelo entende melhor tom, ênfase e intenção, permitindo agentes com melhorias importantes:

  • Maiores taxas de conclusão de tarefas em ambientes ruidosos do mundo real: Melhoramos significativamente a capacidade do modelo de acionar ferramentas externas e fornecer informações durante conversas ao vivo. Ao discernir melhor a fala relevante de sons ambientais como trânsito ou televisão, o modelo filtra o ruído de fundo de forma mais eficaz para permanecer confiável e responsivo às instruções.
  • Melhor seguimento de instruções: A adesão a instruções complexas do sistema foi significativamente aprimorada. Seu agente permanecerá dentro de suas diretrizes operacionais, mesmo quando as conversas tomarem rumos inesperados.
  • Diálogo mais natural e de baixa latência: O modelo mais recente melhora a latência e é ainda mais eficaz no reconhecimento de nuances acústicas como tom e ritmo em comparação com o 2.5 Flash Native Audio, tornando as conversas em tempo real muito mais fluidas e naturais.
  • Capacidades multilíngues: O modelo suporta mais de 90 idiomas para conversas multimodais em tempo real.

Veja a Gemini Live API em ação

Os desenvolvedores estão criando ativamente agentes de voz que se comunicam com um fluxo e ritmo naturais e executam ações de forma confiável com os modelos Gemini Flash Live. Aqui estão alguns exemplos de aplicativos do mundo real que usam o modelo para potencializar suas interações conversacionais:

Stitch

Usando a Gemini Live API, o Stitch agora permite que seus usuários criem designs com a voz. O agente pode 'ver' a tela e as telas selecionadas e fornecer críticas de design, criar variações e muito mais.

Google AI Studio - inline image

Hey Ato

Nesta demonstração, o dispositivo companheiro de IA para idosos, Ato, usa as capacidades multilíngues do Gemini 3.1 Flash Live para transformar conversas diárias em conexões reais para seus usuários.

Google AI Studio - inline image

Wits End

Veja como a equipe Weekend integra a forte caracterização e a entrega humanizada do Gemini 3.1 Flash Live para adicionar um toque teatral único ao Mestre do Jogo em seu RPG - Wit’s end.

Google AI Studio - inline image

0:52

Construa com um ecossistema crescente de integrações

A Live API é construída para ambientes de produção, mas sistemas do mundo real exigem o tratamento de diversas entradas, desde streams de vídeo ao vivo até chamadas telefônicas sob demanda.

Para sistemas que exigem escalabilidade WebRTC ou roteamento global de borda, recomendamos explorar nossas integrações de parceiros para agilizar o desenvolvimento de agentes de voz e vídeo em tempo real.

Google AI Studio - inline image

Comece com a Live API**

O Gemini 3.1 Flash Live está disponível a partir de hoje através da Gemini API e no Google AI Studio. Os desenvolvedores podem usar a Gemini Live API para integrar o modelo em seus aplicativos.

Confira este


tutorial em vídeo

para construir agentes de voz com Gemini 3:

Explore nossa documentação para desenvolvedores para aprender como construir agentes em tempo real.

  • Documentação da Gemini Live API: Explore recursos como suporte multilíngue, uso de ferramentas e chamada de funções, gerenciamento de sessão (para gerenciar conversas longas) e tokens efêmeros.
  • Exemplos da Gemini Live API: Inspire-se com o tipo de experiências de voz que você pode construir hoje com o modelo.
  • Gemini Live API Skill: Para agentes de codificação aprenderem e construírem com a Live API.

Comece com o Google GenAI SDK:

python
1import asyncio
2from google import genai
3
4client = genai.Client(api_key="YOUR_API_KEY")
5
6model = "gemini-3.1-flash-live-preview"
7config = {"response_modalities": ["AUDIO"]}
8
9async def main():
10 async with client.aio.live.connect(model=model, config=config) as session:
11 print("Session started")
12 # Send content...
13
14if __name__ == "__main__":
15 asyncio.run(main())
Save to YouMind

Use YouMind to read viral articles deeply

Save the source, ask focused questions, summarize the argument, and turn a viral article into reusable notes in one AI workspace.

Explore YouMind
Para criadores

Transforme o seu Markdown num artigo 𝕏 impecável

Quando publica os seus próprios textos longos, formatar imagens, tabelas e blocos de código para o 𝕏 é uma dor de cabeça. O YouMind transforma um rascunho completo em Markdown num artigo 𝕏 impecável e pronto a publicar.

Experimente Markdown para 𝕏

Mais padrões para decifrar

Artigos virais recentes

Explorar mais artigos virais