NVFP4 KV cache ใน vLLM สำหรับ RTX PRO 6000 และ DGX Spark (และ RTX Spark ในอนาคต...?)

NVFP4 KV cache ใน vLLM สำหรับ RTX PRO 6000 และ DGX Spark (และ RTX Spark ในอนาคต...?)

@jetha
อังกฤษ2 วันที่ผ่านมา · 23 มิ.ย. 2569

ฟีเจอร์ AI

428K
115
7
3
71

TL;DR

เจาะลึกทางเทคนิคเกี่ยวกับการรองรับ NVFP4 KV cache แบบเนทีฟใน vLLM สำหรับฮาร์ดแวร์ Blackwell ทั้งในกลุ่มผู้บริโภคและ SoC พร้อมเทคนิค VO-split เพื่อเปิดใช้งาน Gemma 4 ที่มี head กว้าง 512

สร้างต่อใน YouMind
สำหรับครีเอเตอร์

เปลี่ยน Markdown ของคุณให้เป็นบทความ 𝕏 ที่สะอาดตา

เวลาคุณเผยแพร่งานเขียนยาวของตัวเอง การจัดรูปแบบรูปภาพ ตาราง และบล็อกโค้ดให้เข้ากับ 𝕏 นั้นน่าปวดหัว YouMind เปลี่ยนร่าง Markdown ทั้งฉบับให้เป็นบทความ 𝕏 ที่สะอาดตาและพร้อมโพสต์ทันที

ลอง Markdown เป็น 𝕏

แพตเทิร์นให้ถอดรหัสเพิ่มเติม

บทความไวรัลล่าสุด

สำรวจบทความไวรัลเพิ่มเติม

สร้างมาเพื่อครีเอเตอร์

หาไอเดียจากบทความไวรัลบน 𝕏 ถอดรหัสว่าทำไมถึงปัง แล้วเปลี่ยนแพตเทิร์นเหล่านั้นเป็นหัวข้อคอนเทนต์ถัดไปของคุณ