如何提升在单机多卡部署时的吞吐量

RunLLM · November 24, 2025, 5:10am

在单机8卡H20（141G显存）上部署Qwen3-VL-8B模型，推荐使用张量并行（tensor parallel）将模型分布到8张GPU上，并通过调整max-model-len参数来提升最大可支持的上下文长度。具体命令如下：

vllm serve Qwen/Qwen3-VL-8B-Instruct \
  --tensor-parallel-size 8 \
  --max-model-len 128000 \
  --async-scheduling

如需进一步提升KV缓存利用率，可加上--gpu-memory-utilization 0.95。如只做文本推理，可通过--limit-mm-per-prompt.video 0 --limit-mm-per-prompt.image 0关闭多模态，释放更多显存用于KVCache。详细配置和硬件适配建议见Qwen3-VL官方vLLM部署指南。

需要更详细的参数说明或多节点/多实例优化建议吗？

Sources:

Qwen3-VL官方vLLM部署指南

Hint: Mention @RunLLM in the post for followups.

Topic		Replies	Views
如何尽可能提升推理服务的吞吐量 General	3	493	January 4, 2026
目前vllm支持哪些推测解码方案 General	3	258	December 9, 2025
使用vllm ray 在多机多卡上部署推理服务 General	5	928	August 8, 2025
在V100显卡上，vLLM并发问题 General	7	572	January 23, 2026
多机多卡推理 ray vllm遇到的报错 General	1	98	January 23, 2026

如何提升在单机多卡部署时的吞吐量

Related topics