Cache KV NVFP4 dans vLLM pour RTX PRO 6000 et DGX Spark (et bientôt RTX Spark... ?)

Cache KV NVFP4 dans vLLM pour RTX PRO 6000 et DGX Spark (et bientôt RTX Spark... ?)

@jetha
ANGLAISil y a 2 jours · 23 juin 2026

Fonctions IA

428K
115
7
3
71

TL;DR

Une analyse technique approfondie de l'implémentation du support natif du cache KV NVFP4 dans vLLM pour le matériel Blackwell grand public et SoC, incluant une astuce de division VO pour activer les têtes de 512 de large de Gemma 4.

Remixer dans YouMind
Pour les créateurs

Transformez votre Markdown en un article 𝕏 impeccable

Quand vous publiez vos propres textes longs, la mise en forme 𝕏 des images, tableaux et blocs de code est pénible. YouMind transforme un brouillon Markdown complet en un article 𝕏 impeccable, prêt à publier.

Essayer Markdown vers 𝕏

D'autres patterns à décoder

Articles viraux récents

Explorer plus d'articles viraux

Pensé pour les créateurs.

Trouvez des idées dans les articles viraux sur 𝕏, décodez pourquoi ils ont fonctionné et transformez ces modèles en votre prochain angle de créateur.

Explorer plus d'articles viraux