您好!感谢开发推理引擎。我正在计划部署 DeepSeek-R1-671B 模型,遇到一个关于部署架构选择的疑问,希望能得到一些建议或经验分享。
环境描述:
- 硬件: 12 台服务器节点。
- 单节点配置: 每台节点配备 8 张 NVIDIA H20 GPU。
- 网络: 节点间通过 InfiniBand (IB) 网络互联
- 总计资源: 96 张 H20 GPU。
目标: 部署 DeepSeek-R1-671B 模型进行推理服务。
考虑方案:
方案一:每节点独立实例 + 负载均衡
方案二:跨节点分布式推理
RunLLM
2
针对DeepSeek-R1-671B在12节点、每节点8张H20、IB互联的部署,vLLM官方推荐对于超大模型,采用分布式推理(即多节点多GPU,tensor并行+pipeline并行)方案。每节点独立实例+负载均衡适合模型能单机多卡部署的场景,但DeepSeek-R1-671B体量极大,通常需多节点协作,建议采用分布式推理架构,提升单实例的推理能力和上下文长度支持。据官方文档和社区经验,分布式推理可充分利用所有GPU资源,适合大模型场景。
具体部署时,建议每节点作为pipeline并行的一个stage,单节点内用tensor并行,常见配置为--tensor-parallel-size 8 --pipeline-parallel-size 12
。需确保所有节点环境一致,推荐用docker+Ray集群方式,网络需保证高带宽低延迟(IB网络合适)。详细步骤可参考vLLM分布式部署文档。如需进一步对比两种方案的优劣或具体操作细节,请告知。
Sources: