NVFP4 KV cache trong vLLM cho RTX PRO 6000 và DGX Spark (và có thể là RTX Spark trong tương lai...?)

NVFP4 KV cache trong vLLM cho RTX PRO 6000 và DGX Spark (và có thể là RTX Spark trong tương lai...?)

@jetha
TIẾNG ANH2 ngày trước · 23 thg 6, 2026

Tính năng AI

428K
115
7
3
71

TL;DR

Phân tích kỹ thuật chuyên sâu về việc triển khai hỗ trợ NVFP4 KV cache gốc trong vLLM cho phần cứng Blackwell phổ thông và SoC, bao gồm thủ thuật VO-split để kích hoạt các đầu (heads) rộng 512 của Gemma 4.

Viết lại trong YouMind
Dành cho nhà sáng tạo

Biến Markdown của bạn thành bài viết 𝕏 gọn gàng

Khi bạn đăng bài viết dài của riêng mình, việc định dạng hình ảnh, bảng và khối mã cho 𝕏 rất mệt mỏi. YouMind biến cả bản nháp Markdown thành một bài viết 𝕏 gọn gàng, sẵn sàng để đăng.

Thử Markdown sang 𝕏

Thêm pattern để giải mã

Bài viết viral gần đây

Khám phá thêm bài viết viral

Được xây dựng cho nhà sáng tạo.

Tìm ý tưởng từ các bài viết viral trên 𝕏, giải mã vì sao chúng hiệu quả và biến pattern đó thành góc nội dung tiếp theo của bạn.

Khám phá thêm bài viết viral