
Come abbiamo creato l'API più veloce al mondo per GLM-5.2
Funzioni IA
- Visualizzazioni
- 462K
- Mi piace
- 1.4K
- Repost
- 125
- Commenti
- 45
- Segnalibri
- 2.4K
TL;DR
Baseten illustra l'ingegneria alla base della propria API GLM-5.2, che raggiunge oltre 280 token al secondo grazie alla quantizzazione NVFP4, all'inferenza disaggregata e all'MTP.
Stai leggendo la traduzione in ITALIANO





