
RTX PRO 6000 および DGX Spark 向け vLLM における NVFP4 KV キャッシュ(将来的に RTX Spark も対応予定...?)
AI 機能
- 表示
- 428K
- いいね
- 115
- リポスト
- 7
- コメント
- 3
- ブックマーク
- 71
TL;DR
コンシューマーおよび SoC 向け Blackwell ハードウェアにおいて、vLLM でネイティブな NVFP4 KV キャッシュサポートを実装するための技術解説。Gemma 4 の 512 幅ヘッドを有効にするための VO 分割テクニックを紹介。
日本語 の翻訳を表示中





