
Como construímos a API mais rápida do mundo para o GLM-5.2
Funcionalidades de IA
- Visualizações
- 462K
- Gostos
- 1.4K
- Republicações
- 125
- Comentários
- 45
- Marcadores
- 2.4K
TL;DR
A Baseten detalha a engenharia por trás da sua API GLM-5.2, que atinge mais de 280 tokens por segundo através de quantização NVFP4, inferência desagregada e MTP.
Está a ler a tradução em PORTUGUÊS





