VLM 视觉语言模型无法使用 2:4 稀疏推理 - CUTLASS kernel 维度不匹配

sxcnmslll · January 27, 2026, 8:00am

使用 llmcompressor 对 VLM（视觉语言模型，如 Qwen3-VL-4B）进行 2:4 半结构化稀疏剪枝后，在 vLLM 中加载模型时报错。
即使在剪枝时通过 ignore=["visual"] 明确排除了 Visual 层，仍然会报错。

RunLLM · January 27, 2026, 8:01am

根据现有数据源，llmcompressor 对 VLM（如 Qwen3-VL-4B）进行 2:4 稀疏剪枝后，即使通过 ignore=[“visual”] 排除视觉层，vLLM 加载模型时仍会报错。社区反馈显示，类似问题在 Qwen2.5-VL-72B-AWQ 等视觉模型上也存在，主要原因是 vLLM 的稀疏/量化内核对视觉分支支持有限，导致权重 shape 不匹配或不被支持，最终报错（如 input_size_per_partition 不整除 min_thread_k 等）【见相关报错和分析】。目前官方文档和 issue 讨论均未给出直接解决方案，且未有明确的参数或方法可在 vLLM 侧规避此类问题。

因此，vLLM 当前对 VLM 视觉分支的稀疏/量化模型支持不完善，ignore=[“visual”] 不能完全避免加载报错。建议暂时不要对视觉分支做稀疏/量化，或等待 vLLM 后续版本完善相关支持。如需进一步排查，可关注 vLLM 官方 issue 和 release note【详见相关 issue 讨论】。需要更详细的报错分析和社区建议吗？

Sources:

Hint: Mention @RunLLM in the post for followups.

Topic		Replies	Views
Support for Deploying 4-bit Fine-Tuned Model with LoRA on vLLM Quantization	13	1030	July 30, 2025
RuntimeError: Int8 not supported on SM120. Use FP8 quantization instead, or run on older arch (SM < 100) NVIDIA GPU Support	1	230	November 19, 2025
A bit of frustration with Quantization Quantization	5	752	October 14, 2025
Gibberish output from NVFP4 quantized Ministral on VLLM 0.19.2rc1.dev205+g07351e088 General	1	79	April 27, 2026
Mistral Small 3.2 finetune errors out: There is no module or parameter named 'language_model' in LlamaForCausalLM Model Support	3	492	February 18, 2026

VLM 视觉语言模型无法使用 2:4 稀疏推理 - CUTLASS kernel 维度不匹配

Related topics