
Comment nous avons conçu l'API la plus rapide au monde pour GLM-5.2
Fonctions IA
- Vues
- 462K
- J'aime
- 1.4K
- Reposts
- 125
- Commentaires
- 45
- Signets
- 2.4K
TL;DR
Baseten détaille l'ingénierie derrière son API GLM-5.2, qui atteint plus de 280 jetons par seconde grâce à la quantification NVFP4, à l'inférence désagrégée et au MTP.
Vous lisez la traduction en FRANÇAIS





