
Cache KV NVFP4 no vLLM para RTX PRO 6000 e DGX Spark (e RTX Spark no futuro...?)
Funcionalidades de IA
- Visualizações
- 428K
- Gostos
- 115
- Republicações
- 7
- Comentários
- 3
- Marcadores
- 71
TL;DR
Uma análise técnica aprofundada sobre a implementação de suporte nativo ao cache KV NVFP4 no vLLM para hardware Blackwell de consumo e SoC, apresentando o truque VO-split para habilitar as heads de 512 de largura do Gemma 4.
Está a ler a tradução em PORTUGUÊS





