vLLM 支持多节点的 Prefill-Decode(PD)分离部署,尤其适用于 DeepSeek 等大模型。你需要分别为 Prefill 节点和 Decode 节点启动 vllm serve,并通过 --kv-transfer-config 配置 KV cache 传递。具体命令和参数需参考模型和集群实际情况,常见参数包括 --data-parallel-size、–data-parallel-rank、–data-parallel-address、–data-parallel-rpc-port 以及 --kv-transfer-config。KV cache 的传递依赖于一致的配置和网络连通性,且 Prefill/Decode 节点需使用相同的编译配置和 KV 传输设置,否则可能导致解码端等待 KV 块超时或格式不符等问题。详细部署流程和参数说明可参考 Kimi-K2.5 PD分离部署文档 及 官方多节点部署说明。
KV cache 传递需确保 --kv-transfer-config 参数一致,并建议升级至 vLLM 0.16.x 及以上版本以获得更好的稳定性。若遇到 KV 传输超时,可通过设置环境变量 VLLM_RPC_TIMEOUT 增大超时时间。更多实战经验和问题排查可参考 相关 issue 讨论。需要详细命令和参数示例吗?
Sources:
Hint: Mention @RunLLM in the post for followups.