Visão geral Casos de uso Habilidades Prompts Preços Blogue Atualizações

Cache KV NVFP4 no vLLM para RTX PRO 6000 e DGX Spark (e RTX Spark no futuro...?)

INGLÊShá 2 dias · 23/06/2026

Funcionalidades de IA

Visualizações: 428K
Gostos: 115
Republicações: 7
Comentários: 3
Marcadores: 71

TL;DR

Uma análise técnica aprofundada sobre a implementação de suporte nativo ao cache KV NVFP4 no vLLM para hardware Blackwell de consumo e SoC, apresentando o truque VO-split para habilitar as heads de 512 de largura do Gemma 4.

Está a ler a tradução em PORTUGUÊS

Recriar no YouMind

Para criadores

Quando publica os seus próprios textos longos, formatar imagens, tabelas e blocos de código para o 𝕏 é uma dor de cabeça. O YouMind transforma um rascunho completo em Markdown num artigo 𝕏 impecável e pronto a publicar.

Experimente Markdown para 𝕏

Mais padrões para decifrar