三机部署glm-4.7（bf16）报错

zmnobug · February 5, 2026, 1:59pm

三台机器，每台有8张A100显卡（40G/张），使用tp8，pp3进行部署，报以下错误。
模型共92层，pp3不能均分，是这个问题吗？减小层数到60层用pp2做调试是没有问题的。

zmnobug:

Error executing method ‘initialize_from_config’. This might cause deadlock in distributed execution.

e[0;36m(EngineCore_DP0 pid=194587)e[0;0m e[36m(RayWorkerWrapper pid=150609)e[0m ERROR 02-03 16:20:26 [worker_base.py:344] Traceback (most recent call last):

e[0;36m(EngineCore_DP0 pid=194587)e[0;0m e[36m(RayWorkerWrapper pid=150609)e[0m ERROR 02-03 16:20:26 [worker_base.py:344] File “/home/deploy/.conda/envs/zm_glm/lib/python3.10/site-packages/vllm/v1/worker/worker_base.py”, line 334, in execute_method

e[0;36m(EngineCore_DP0 pid=194587)e[0;0m e[36m(RayWorkerWrapper pid=150609)e[0m ERROR 02-03 16:20:26 [worker_base.py:344] return run_method(self, method, args, kwargs)

e[0;36m(EngineCore_DP0 pid=194587)e[0;0m e[36m(RayWorkerWrapper pid=150609)e[0m ERROR 02-03 16:20:26 [worker_base.py:344] File “/home/deploy/.conda/envs/zm_glm/lib/python3.10/site-packages/vllm/v1/serial_utils.py”, line 461, in run_method

e[0;36m(EngineCore_DP0 pid=194587)e[0;0m e[36m(RayWorkerWrapper pid=150609)e[0m ERROR 02-03 16:20:26 [worker_base.py:344] return func(*args, **kwargs)

e[0;36m(EngineCore_DP0 pid=194587)e[0;0m e[36m(RayWorkerWrapper pid=150609)e[0m ERROR 02-03 16:20:26 [worker_base.py:344] File “/home/deploy/.conda/envs/zm_glm/lib/python3.10/site-packages/ray/util/tracing/tracing_helper.py”, line 461, in _resume_span

e[0;36m(EngineCore_DP0 pid=194587)e[0;0m e[36m(RayWorkerWrapper pid=150609)e[0m ERROR 02-03 16:20:26 [worker_base.py:344] return method(self, *_args, **_kwargs)

e[0;36m(EngineCore_DP0 pid=194587)e[0;0m e[36m(RayWorkerWrapper pid=150609)e[0m ERROR 02-03 16:20:26 [worker_base.py:344] File “/home/deploy/.conda/envs/zm_glm/lib/python3.10/site-packages/vllm/v1/worker/worker_base.py”, line 320, in initialize_from_config

e[0;36m(EngineCore_DP0 pid=194587)e[0;0m e[36m(RayWorkerWrapper pid=150609)e[0m ERROR 02-03 16:20:26 [worker_base.py:344] self.worker.initialize_from_config(kv_cache_config) # type: ignore

e[0;36m(EngineCore_DP0 pid=194587)e[0;0m e[36m(RayWorkerWrapper pid=150609)e[0m ERROR 02-03 16:20:26 [worker_base.py:344] File “/home/deploy/.conda/envs/zm_glm/lib/python3.10/site-packages/vllm/v1/worker/gpu_worker.py”, line 412, in initialize_from_config

e[0;36m(EngineCore_DP0 pid=194587)e[0;0m e[36m(RayWorkerWrapper pid=150609)e[0m ERROR 02-03 16:20:26 [worker_base.py:344] self.model_runner.initialize_kv_cache(kv_cache_config)

e[0;36m(EngineCore_DP0 pid=194587)e[0;0m e[36m(RayWorkerWrapper pid=150609)e[0m ERROR 02-03 16:20:26 [worker_base.py:344] File “/home/deploy/.conda/envs/zm_glm/lib/python3.10/site-packages/vllm/v1/worker/gpu_model_runner.py”, line 5862, in initialize_kv_cache

e[0;36m(EngineCore_DP0 pid=194587)e[0;0m e[36m(RayWorkerWrapper pid=150609)e[0m ERROR 02-03 16:20:26 [worker_base.py:344] self.initialize_attn_backend(kv_cache_config)

e[0;36m(EngineCore_DP0 pid=194587)e[0;0m e[36m(RayWorkerWrapper pid=150609)e[0m ERROR 02-03 16:20:26 [worker_base.py:344] File “/home/deploy/.conda/envs/zm_glm/lib/python3.10/site-packages/vllm/v1/worker/gpu_model_runner.py”, line 5203, in initialize_attn_backend

e[0;36m(EngineCore_DP0 pid=194587)e[0;0m e[36m(RayWorkerWrapper pid=150609)e[0m ERROR 02-03 16:20:26 [worker_base.py:344] attn_backends = get_attn_backends_for_group(kv_cache_group_spec)

e[0;36m(EngineCore_DP0 pid=194587)e[0;0m e[36m(RayWorkerWrapper pid=150609)e[0m ERROR 02-03 16:20:26 [worker_base.py:344] File “/home/deploy/.conda/envs/zm_glm/lib/python3.10/site-packages/vllm/v1/worker/gpu_model_runner.py”, line 5151, in get_attn_backends_for_group

e[0;36m(EngineCore_DP0 pid=194587)e[0;0m e[36m(RayWorkerWrapper pid=150609)e[0m ERROR 02-03 16:20:26 [worker_base.py:344] layers = get_layers_from_vllm_config(

e[0;36m(EngineCore_DP0 pid=194587)e[0;0m e[36m(RayWorkerWrapper pid=150609)e[0m ERROR 02-03 16:20:26 [worker_base.py:344] File “/home/deploy/.conda/envs/zm_glm/lib/python3.10/site-packages/vllm/config/vllm.py”, line 1501, in get_layers_from_vllm_config

e[0;36m(EngineCore_DP0 pid=194587)e[0;0m e[36m(RayWorkerWrapper pid=150609)e[0m ERROR 02-03 16:20:26 [worker_base.py:344] return {

e[0;36m(EngineCore_DP0 pid=194587)e[0;0m e[36m(RayWorkerWrapper pid=150609)e[0m ERROR 02-03 16:20:26 [worker_base.py:344] File “/home/deploy/.conda/envs/zm_glm/lib/python3.10/site-packages/vllm/config/vllm.py”, line 1504, in

e[0;36m(EngineCore_DP0 pid=194587)e[0;0m e[36m(RayWorkerWrapper pid=150609)e[0m ERROR 02-03 16:20:26 [worker_base.py:344] if isinstance(forward_context[layer_name], layer_type)

e[0;36m(EngineCore_DP0 pid=194587)e[0;0m e[36m(RayWorkerWrapper pid=150609)e[0m ERROR 02-03 16:20:26 [worker_base.py:344] KeyError: ‘model.layers.31.self_attn.attn’

RunLLM · February 5, 2026, 2:00pm

是的，你的理解基本正确。92层模型用pp3（pipeline parallel size=3）时，无法均分层数，容易导致分层不均或分配出错，从而引发KeyError等初始化失败问题。你用60层模型配pp2能正常，是因为60能被2整除，分层均匀不会出错。据相关issue和报错堆栈，pp分组不能正确映射到模型层时会报KeyError。

建议：要么调整模型层数使其能被pp数整除，要么手动设置VLLM_PP_LAYER_PARTITION环境变量，指定每组分配的层数（如"31,31,30"），但需确保分配合理且所有层都被覆盖，否则仍会报错。详细分配方法可参考官方说明。

需要更详细的分层配置或调试建议吗？

Sources:

Hint: Mention @RunLLM in the post for followups.

zmnobug · February 6, 2026, 3:57am

@RunLLM 我根据你发我的issue作了修改，现在可以启动服务，但是发送请求后没有回复，Engine 000: Avg prompt throughput: 0.0 tokens/s, Avg generation throughput: 0.0 tokens/s, Running: 1 reqs, Waiting: 0 reqs, GPU KV cache usage: 0.0%, Prefix cache hit rate: 0.0%

RunLLM · February 6, 2026, 3:58am

根据你的描述，服务能启动但请求无回复，且日志显示“Running: 1 reqs, Waiting: 0 reqs, GPU KV cache usage: 0.0%”，这通常是vLLM引擎内部请求卡死或配置不当导致的常见问题。此类现象在多卡/多并发环境下经常出现，尤其是pp/tp分组或KV cache参数设置不合理时。相关issue和官方文档建议：

检查max-num-batched-tokens参数，确保其不小于max-model-len，否则vLLM v1会卡死请求。
尝试将VLLM_USE_V1=0切换回v0引擎，若v0正常则说明v1配置有误。
增加环境变量VLLM_LOGGING_LEVEL=DEBUG，观察详细日志定位卡点。
检查模型分层配置与实际层数是否完全匹配，避免遗漏或重复。

需要更详细的排查步骤或配置示例吗？

Sources:

Hint: Mention @RunLLM in the post for followups.

Topic		Replies	Views
vLLM on 4 nodes fails randomly General	1	83	April 6, 2026
Ray cluster DeepSeek-R1-Distill-Qwen-32B-AWQ General	43	654	August 25, 2025
KeyError: 'model.layers.6.mlp.experts.w2_weight_scale' General	0	573	April 18, 2025
我的显卡是8张L20，为什么运行glm5-FP8报错了 General	0	98	March 19, 2026
Setting up VllmConfig for custom gpt2 General	2	140	April 29, 2025

三机部署glm-4.7（bf16）报错

Related topics