
Cache KV NVFP4 dans vLLM pour RTX PRO 6000 et DGX Spark (et bientôt RTX Spark... ?)
Fonctions IA
- Vues
- 428K
- J'aime
- 115
- Reposts
- 7
- Commentaires
- 3
- Signets
- 71
TL;DR
Une analyse technique approfondie de l'implémentation du support natif du cache KV NVFP4 dans vLLM pour le matériel Blackwell grand public et SoC, incluant une astuce de division VO pour activer les têtes de 512 de large de Gemma 4.
Vous lisez la traduction en FRANÇAIS





