VLM 视觉语言模型无法使用 2:4 稀疏推理 - CUTLASS kernel 维度不匹配

使用 llmcompressor 对 VLM(视觉语言模型,如 Qwen3-VL-4B)进行 2:4 半结构化稀疏剪枝后,在 vLLM 中加载模型时报错。
即使在剪枝时通过 ignore=["visual"] 明确排除了 Visual 层,仍然会报错。

根据现有数据源,llmcompressor 对 VLM(如 Qwen3-VL-4B)进行 2:4 稀疏剪枝后,即使通过 ignore=[“visual”] 排除视觉层,vLLM 加载模型时仍会报错。社区反馈显示,类似问题在 Qwen2.5-VL-72B-AWQ 等视觉模型上也存在,主要原因是 vLLM 的稀疏/量化内核对视觉分支支持有限,导致权重 shape 不匹配或不被支持,最终报错(如 input_size_per_partition 不整除 min_thread_k 等)【见相关报错和分析】。目前官方文档和 issue 讨论均未给出直接解决方案,且未有明确的参数或方法可在 vLLM 侧规避此类问题。

因此,vLLM 当前对 VLM 视觉分支的稀疏/量化模型支持不完善,ignore=[“visual”] 不能完全避免加载报错。建议暂时不要对视觉分支做稀疏/量化,或等待 vLLM 后续版本完善相关支持。如需进一步排查,可关注 vLLM 官方 issue 和 release note【详见相关 issue 讨论】。需要更详细的报错分析和社区建议吗?

Sources:

Hint: Mention @RunLLM in the post for followups.