
NVFP4 KV cache ใน vLLM สำหรับ RTX PRO 6000 และ DGX Spark (และ RTX Spark ในอนาคต...?)
ฟีเจอร์ AI
- การดู
- 428K
- ถูกใจ
- 115
- รีโพสต์
- 7
- ความคิดเห็น
- 3
- บุ๊กมาร์ก
- 71
TL;DR
เจาะลึกทางเทคนิคเกี่ยวกับการรองรับ NVFP4 KV cache แบบเนทีฟใน vLLM สำหรับฮาร์ดแวร์ Blackwell ทั้งในกลุ่มผู้บริโภคและ SoC พร้อมเทคนิค VO-split เพื่อเปิดใช้งาน Gemma 4 ที่มี head กว้าง 512
กำลังอ่านคำแปลภาษา ไทย





