咨询部署方案：DeepSeek-R1-671B 在 12x8卡H20集群上 - 分布式推理 vs 多实例负载均衡的推理方案对比

PeifengRen · June 30, 2025, 2:28pm

您好！感谢开发推理引擎。我正在计划部署 DeepSeek-R1-671B 模型，遇到一个关于部署架构选择的疑问，希望能得到一些建议或经验分享。

环境描述：

硬件： 12 台服务器节点。
单节点配置：每台节点配备 8 张 NVIDIA H20 GPU。
网络：节点间通过 InfiniBand (IB) 网络互联
总计资源： 96 张 H20 GPU。

目标：部署 DeepSeek-R1-671B 模型进行推理服务。

考虑方案：
方案一：每节点独立实例 + 负载均衡
方案二：跨节点分布式推理

RunLLM · June 30, 2025, 2:28pm

针对DeepSeek-R1-671B在12节点、每节点8张H20、IB互联的部署，vLLM官方推荐对于超大模型，采用分布式推理（即多节点多GPU，tensor并行+pipeline并行）方案。每节点独立实例+负载均衡适合模型能单机多卡部署的场景，但DeepSeek-R1-671B体量极大，通常需多节点协作，建议采用分布式推理架构，提升单实例的推理能力和上下文长度支持。据官方文档和社区经验，分布式推理可充分利用所有GPU资源，适合大模型场景。

具体部署时，建议每节点作为pipeline并行的一个stage，单节点内用tensor并行，常见配置为--tensor-parallel-size 8 --pipeline-parallel-size 12。需确保所有节点环境一致，推荐用docker+Ray集群方式，网络需保证高带宽低延迟（IB网络合适）。详细步骤可参考vLLM分布式部署文档。如需进一步对比两种方案的优劣或具体操作细节，请告知。

Sources:

Topic		Replies	Views
What is the optimal combination of parallelism when deploying deepseek-r1 with multiple nodes? General	0	38	May 2, 2025
Connecting to Ray Cluster and Launching vLLM with TP=8 and PP=2 in Deepseek R1 Mode on Kubernetes General	1	127	July 6, 2025
Ray cluster DeepSeek-R1-Distill-Qwen-32B-AWQ General	43	164	August 25, 2025
Will vLLM follow-up DeepSeek's inference system DeepSeek	3	423	May 13, 2025
使用vllm ray 在多机多卡上部署推理服务 General	5	167	August 8, 2025

咨询部署方案：DeepSeek-R1-671B 在 12x8卡H20集群上 - 分布式推理 vs 多实例负载均衡的推理方案对比

Related topics