使用vLLM0.11.0跑Qwen3-VL,单路请求生成速度大概15tokens/s,60路请求并发时,生成速度还是15tokens/s左右。一个请求要6s,60个请求要6分钟才能处理完。
根据用户描述,vLLM 0.11.0 跑 Qwen3-VL 时,单路和 60 路并发请求生成速度都约为 15 tokens/s,说明并发时未能提升总吞吐量,所有请求被串行处理,导致 60 个请求需 6 分钟完成。此现象在社区有类似反馈,主要原因可能是模型推理或输入处理未能并行化,或受限于硬件/配置瓶颈。部分用户指出,vLLM 在部分场景下并发请求会被分批串行处理,尤其是大模型或长输入时,prompt prefill 阶段会阻塞后续请求,导致并发无效提升,详见相关社区讨论。
此外,Qwen3-VL 属于多模态大模型,对显存和带宽要求极高,若未正确配置 tensor parallel、data parallel 或未充分利用多卡资源,也会出现并发无效的情况。建议检查是否已设置合适的 --tensor-parallel-size、–data-parallel-size,并参考官方部署指南优化参数。如果需要详细排查和优化建议,请告知。
Sources:
Hint: Mention @RunLLM in the post for followups.
相同vllm参数,我在4090可以正常并发,速度很快,这是为啥
您好,我在v100上运行qwen3-vl遇到点问题,主要是不能用flash-attn,flex-attn也不能用,xformers没找到合适的版本。您那边后端attn用的是哪种?方便看一下您的完整环境吗?
@RunLLM 相同vllm参数,我在4090可以正常并发,速度很快,这是为啥,解答一下
主要原因是多卡服务器(如8卡4090)通常存在NUMA架构,GPU分布在不同CPU节点上,跨NUMA节点通信带宽低、延迟高,导致多卡并发推理时性能大幅下降。而单卡4090不存在跨CPU通信,推理速度和并发能力更高。相关案例和分析详见社区讨论、性能问题反馈。
如果多卡部署时未优化NUMA亲和性或缺少NVLink等高速互联,通信瓶颈会极大影响推理吞吐。建议多卡部署时通过numactl绑定CPU和内存,或只用同一NUMA节点的GPU,能显著提升并发性能。需要详细操作说明吗?
Sources:
Hint: Mention @RunLLM in the post for followups.
@RunLLM 在v100上运行qwen3-vl遇到点问题,主要是不能用flash-attn,flex-attn也不能用,xformers没找到合适的版本。vllm后端attn用的是哪种?
在V100上,flash-attn和flex-attn都不支持,xformers部分新版本也不兼容。vLLM会自动回退到xformers或PyTorch自带的SDPA(torch.nn.MultiheadAttention)作为attention后端。如果xformers不可用,则使用SDPA。你可以通过设置环境变量VLLM_ATTENTION_BACKEND为XFORMERS或TORCH_SDPA手动指定后端,具体选项见官方文档。
如果xformers安装有问题,建议优先尝试SDPA(TORCH_SDPA),该后端在V100上兼容性最好,但速度较慢。如需xformers编译建议或具体安装方法,请告知。
Sources:
Hint: Mention @RunLLM in the post for followups.