
GLM-5.2 için dünyanın en hızlı API'sini nasıl oluşturduk
Yapay zekâ özellikleri
- Görüntülenme
- 462K
- Beğeni
- 1.4K
- Yeniden gönderi
- 125
- Yorumlar
- 45
- Yer işaretleri
- 2.4K
TL;DR
Baseten, NVFP4 kuantizasyonu, ayrıştırılmış çıkarım ve MTP aracılığıyla saniyede 280'den fazla token hızına ulaşan GLM-5.2 API'sinin arkasındaki mühendislik detaylarını açıklıyor.
TÜRKÇE çevirisini okuyorsunuz





