在单机8卡H20(141G显存)上部署Qwen3-VL-8B模型,推荐使用张量并行(tensor parallel)将模型分布到8张GPU上,并通过调整max-model-len参数来提升最大可支持的上下文长度。具体命令如下:
vllm serve Qwen/Qwen3-VL-8B-Instruct \
--tensor-parallel-size 8 \
--max-model-len 128000 \
--async-scheduling
如需进一步提升KV缓存利用率,可加上--gpu-memory-utilization 0.95。如只做文本推理,可通过--limit-mm-per-prompt.video 0 --limit-mm-per-prompt.image 0关闭多模态,释放更多显存用于KVCache。详细配置和硬件适配建议见Qwen3-VL官方vLLM部署指南。
需要更详细的参数说明或多节点/多实例优化建议吗?
Sources:
Hint: Mention @RunLLM in the post for followups.