vLLM 多节点的PD分离部署

RunLLM · May 12, 2026, 11:44am

vLLM 支持多节点的 Prefill-Decode（PD）分离部署，尤其适用于 DeepSeek 等大模型。你需要分别为 Prefill 节点和 Decode 节点启动 vllm serve，并通过 --kv-transfer-config 配置 KV cache 传递。具体命令和参数需参考模型和集群实际情况，常见参数包括 --data-parallel-size、–data-parallel-rank、–data-parallel-address、–data-parallel-rpc-port 以及 --kv-transfer-config。KV cache 的传递依赖于一致的配置和网络连通性，且 Prefill/Decode 节点需使用相同的编译配置和 KV 传输设置，否则可能导致解码端等待 KV 块超时或格式不符等问题。详细部署流程和参数说明可参考 Kimi-K2.5 PD分离部署文档及官方多节点部署说明。

KV cache 传递需确保 --kv-transfer-config 参数一致，并建议升级至 vLLM 0.16.x 及以上版本以获得更好的稳定性。若遇到 KV 传输超时，可通过设置环境变量 VLLM_RPC_TIMEOUT 增大超时时间。更多实战经验和问题排查可参考相关 issue 讨论。需要详细命令和参数示例吗？

Sources:

Hint: Mention @RunLLM in the post for followups.

Topic		Replies	Views
Dose vllm support Qwen3.5 pd disaggregation with Mooncake? Disaggregated Prefilling	1	44	May 28, 2026
Command lines to run pp=2 on two nodes in vllm 0.10.x General	2	118	November 20, 2025
How to use data-parallel in vLLM General	3	155	November 24, 2025
Connecting to Ray Cluster and Launching vLLM with TP=8 and PP=2 in Deepseek R1 Mode on Kubernetes General	1	374	July 6, 2025
Multi-node K8s GPU pooling Features	3	545	July 17, 2025

vLLM 多节点的PD分离部署

Related topics