
Caché KV NVFP4 en vLLM para RTX PRO 6000 y DGX Spark (¿y RTX Spark en el futuro...?)
Funciones de IA
- Visualizaciones
- 428K
- Me gusta
- 115
- Republicaciones
- 7
- Comentarios
- 3
- Guardados
- 71
TL;DR
Un análisis técnico profundo sobre la implementación de soporte nativo para caché KV NVFP4 en vLLM para hardware Blackwell de consumo y SoC, incluyendo un truco de división VO para habilitar los cabezales de 512 de ancho de Gemma 4.
Estás leyendo la traducción en ESPAÑOL





