咨询部署方案:DeepSeek-R1-671B 在 12x8卡H20集群上 - 分布式推理 vs 多实例负载均衡的推理方案对比

您好!感谢开发推理引擎。我正在计划部署 DeepSeek-R1-671B 模型,遇到一个关于部署架构选择的疑问,希望能得到一些建议或经验分享。

环境描述:

  • 硬件: 12 台服务器节点。
  • 单节点配置: 每台节点配备 8 张 NVIDIA H20 GPU。
  • 网络: 节点间通过 InfiniBand (IB) 网络互联
  • 总计资源: 96 张 H20 GPU。

目标: 部署 DeepSeek-R1-671B 模型进行推理服务。

考虑方案:
方案一:每节点独立实例 + 负载均衡
方案二:跨节点分布式推理

针对DeepSeek-R1-671B在12节点、每节点8张H20、IB互联的部署,vLLM官方推荐对于超大模型,采用分布式推理(即多节点多GPU,tensor并行+pipeline并行)方案。每节点独立实例+负载均衡适合模型能单机多卡部署的场景,但DeepSeek-R1-671B体量极大,通常需多节点协作,建议采用分布式推理架构,提升单实例的推理能力和上下文长度支持。据官方文档社区经验,分布式推理可充分利用所有GPU资源,适合大模型场景。

具体部署时,建议每节点作为pipeline并行的一个stage,单节点内用tensor并行,常见配置为--tensor-parallel-size 8 --pipeline-parallel-size 12。需确保所有节点环境一致,推荐用docker+Ray集群方式,网络需保证高带宽低延迟(IB网络合适)。详细步骤可参考vLLM分布式部署文档。如需进一步对比两种方案的优劣或具体操作细节,请告知。

Sources: