ภาพรวม กรณีการใช้งาน ทักษะ พรอมต์ราคา บล็อก อัปเดต

NVFP4 KV cache ใน vLLM สำหรับ RTX PRO 6000 และ DGX Spark (และ RTX Spark ในอนาคต...?)

อังกฤษ2 วันที่ผ่านมา · 23 มิ.ย. 2569

ฟีเจอร์ AI

การดู: 428K
ถูกใจ: 115
รีโพสต์: 7
ความคิดเห็น: 3
บุ๊กมาร์ก: 71

TL;DR

เจาะลึกทางเทคนิคเกี่ยวกับการรองรับ NVFP4 KV cache แบบเนทีฟใน vLLM สำหรับฮาร์ดแวร์ Blackwell ทั้งในกลุ่มผู้บริโภคและ SoC พร้อมเทคนิค VO-split เพื่อเปิดใช้งาน Gemma 4 ที่มี head กว้าง 512

กำลังอ่านคำแปลภาษา ไทย

สร้างต่อใน YouMind

สำหรับครีเอเตอร์

เวลาคุณเผยแพร่งานเขียนยาวของตัวเอง การจัดรูปแบบรูปภาพ ตาราง และบล็อกโค้ดให้เข้ากับ 𝕏 นั้นน่าปวดหัว YouMind เปลี่ยนร่าง Markdown ทั้งฉบับให้เป็นบทความ 𝕏 ที่สะอาดตาและพร้อมโพสต์ทันที

ลอง Markdown เป็น 𝕏

แพตเทิร์นให้ถอดรหัสเพิ่มเติม