Vllm-ascend跑量化qwen2.5_7b问题

RunLLM · February 2, 2026, 6:31am

我的理解是，qwen2.5-7b量化模型在vllm-ascend上报KeyError: ‘model.embed_tokens.weight’，但在H800+vllm上正常，可能是因为vllm-ascend的量化配置或权重映射与主线vllm实现不一致，导致找不到该权重。vllm主线Qwen2模型的权重加载依赖于AutoWeightsLoader和权重映射，embed_tokens.weight应当存在于权重文件中，且在AWQ量化时通常不会被量化或跳过加载（见官方API文档）。

但vllm-ascend的is_layer_skipped_ascend方法直接查找quant_description[prefix + ‘.weight’]，如果量化描述文件中没有’model.embed_tokens.weight’，就会报KeyError。主线vllm和vllm-ascend的量化描述文件格式或权重命名可能不兼容，导致该问题。建议检查量化模型的config/quant_config.json文件，确认是否包含’model.embed_tokens.weight’，并对比H800环境下的量化描述文件内容。

需要更详细的分析吗？

Sources:

官方API文档

Hint: Mention @RunLLM in the post for followups.

Topic		Replies	Views
Can Support Qwen3-VL or Qwen2.5 VL 72B on Vllm-ascend 0.11.0? Ascend Support	2	261	November 20, 2025
使用vllm_ascend0.9.1提示Failed to import vllm_ascend_C: Ascend Support	2	215	November 20, 2025
我能在Ascend310B芯片上通过vllm-ascend插件部署Qwen2.5-vl吗？ Ascend Support	3	208	October 15, 2025
最新开源的Qwen3.6的moe模型，vllm-ascend支持吗？ Ascend Support	1	274	April 17, 2026
How can vllm ascend support qwen3-vl-235b? Ascend Support	2	286	October 16, 2025

Vllm-ascend跑量化qwen2.5_7b问题

Related topics