使用vLLM0.11.0跑Qwen3-VL,单路请求生成速度大概15tokens/s,60路请求并发时,生成速度还是15tokens/s左右。一个请求要6s,60个请求要6分钟才能处理完。
根据用户描述,vLLM 0.11.0 跑 Qwen3-VL 时,单路和 60 路并发请求生成速度都约为 15 tokens/s,说明并发时未能提升总吞吐量,所有请求被串行处理,导致 60 个请求需 6 分钟完成。此现象在社区有类似反馈,主要原因可能是模型推理或输入处理未能并行化,或受限于硬件/配置瓶颈。部分用户指出,vLLM 在部分场景下并发请求会被分批串行处理,尤其是大模型或长输入时,prompt prefill 阶段会阻塞后续请求,导致并发无效提升,详见相关社区讨论。
此外,Qwen3-VL 属于多模态大模型,对显存和带宽要求极高,若未正确配置 tensor parallel、data parallel 或未充分利用多卡资源,也会出现并发无效的情况。建议检查是否已设置合适的 --tensor-parallel-size、–data-parallel-size,并参考官方部署指南优化参数。如果需要详细排查和优化建议,请告知。
Sources:
Hint: Mention @RunLLM in the post for followups.
相同vllm参数,我在4090可以正常并发,速度很快,这是为啥