Vllm-ascend跑量化qwen2.5_7b问题

我的理解是,qwen2.5-7b量化模型在vllm-ascend上报KeyError: ‘model.embed_tokens.weight’,但在H800+vllm上正常,可能是因为vllm-ascend的量化配置或权重映射与主线vllm实现不一致,导致找不到该权重。vllm主线Qwen2模型的权重加载依赖于AutoWeightsLoader和权重映射,embed_tokens.weight应当存在于权重文件中,且在AWQ量化时通常不会被量化或跳过加载(见官方API文档)。

但vllm-ascend的is_layer_skipped_ascend方法直接查找quant_description[prefix + ‘.weight’],如果量化描述文件中没有’model.embed_tokens.weight’,就会报KeyError。主线vllm和vllm-ascend的量化描述文件格式或权重命名可能不兼容,导致该问题。建议检查量化模型的config/quant_config.json文件,确认是否包含’model.embed_tokens.weight’,并对比H800环境下的量化描述文件内容。

需要更详细的分析吗?

Sources:

Hint: Mention @RunLLM in the post for followups.