
RTX PRO 6000 ve DGX Spark için vLLM'de NVFP4 KV önbelleği (ve gelecekte RTX Spark mı...?)
Yapay zekâ özellikleri
- Görüntülenme
- 428K
- Beğeni
- 115
- Yeniden gönderi
- 7
- Yorumlar
- 3
- Yer işaretleri
- 71
TL;DR
Gemma 4'ün 512 genişliğindeki başlıklarını etkinleştirmek için VO-split hilesini içeren, tüketici ve SoC Blackwell donanımlarında vLLM için yerel NVFP4 KV önbellek desteğinin uygulanmasına yönelik teknik bir derinlemesine inceleme.
TÜRKÇE çevirisini okuyorsunuz





