
RTX PRO 6000 및 DGX Spark(향후 RTX Spark 포함...?)를 위한 vLLM 내 NVFP4 KV 캐시 구현
AI 기능
- 조회
- 428K
- 좋아요
- 115
- 리포스트
- 7
- 댓글
- 3
- 북마크
- 71
TL;DR
소비자용 및 SoC Blackwell 하드웨어의 vLLM에서 네이티브 NVFP4 KV 캐시 지원을 구현하기 위한 기술 심층 분석. Gemma 4의 512-wide 헤드를 활성화하기 위한 VO-split 트릭을 포함합니다.
한국어 번역을 보는 중





