
Cache KV NVFP4 no vLLM para RTX PRO 6000 e DGX Spark (e RTX Spark no futuro...?)
Recursos de IA
- Visualizações
- 428K
- Curtidas
- 115
- Reposts
- 7
- Comentários
- 3
- Salvos
- 71
TL;DR
Uma análise técnica aprofundada sobre a implementação de suporte nativo ao cache KV NVFP4 no vLLM para hardware Blackwell de consumo e SoC, apresentando um truque de divisão VO para habilitar as cabeças de 512 de largura do Gemma 4.
Você está lendo a tradução em PORTUGUÊS





