如何提升在单机多卡部署时的吞吐量

在单机8卡H20(141G显存)上部署Qwen3-VL-8B模型,推荐使用张量并行(tensor parallel)将模型分布到8张GPU上,并通过调整max-model-len参数来提升最大可支持的上下文长度。具体命令如下:

vllm serve Qwen/Qwen3-VL-8B-Instruct \
  --tensor-parallel-size 8 \
  --max-model-len 128000 \
  --async-scheduling

如需进一步提升KV缓存利用率,可加上--gpu-memory-utilization 0.95。如只做文本推理,可通过--limit-mm-per-prompt.video 0 --limit-mm-per-prompt.image 0关闭多模态,释放更多显存用于KVCache。详细配置和硬件适配建议见Qwen3-VL官方vLLM部署指南

需要更详细的参数说明或多节点/多实例优化建议吗?

Sources:

Hint: Mention @RunLLM in the post for followups.