在V100显卡上，vLLM并发问题

Chron · November 13, 2025, 9:46am

使用vLLM0.11.0跑Qwen3-VL,单路请求生成速度大概15tokens/s，60路请求并发时，生成速度还是15tokens/s左右。一个请求要6s，60个请求要6分钟才能处理完。

RunLLM · November 13, 2025, 9:47am

根据用户描述，vLLM 0.11.0 跑 Qwen3-VL 时，单路和 60 路并发请求生成速度都约为 15 tokens/s，说明并发时未能提升总吞吐量，所有请求被串行处理，导致 60 个请求需 6 分钟完成。此现象在社区有类似反馈，主要原因可能是模型推理或输入处理未能并行化，或受限于硬件/配置瓶颈。部分用户指出，vLLM 在部分场景下并发请求会被分批串行处理，尤其是大模型或长输入时，prompt prefill 阶段会阻塞后续请求，导致并发无效提升，详见相关社区讨论。

此外，Qwen3-VL 属于多模态大模型，对显存和带宽要求极高，若未正确配置 tensor parallel、data parallel 或未充分利用多卡资源，也会出现并发无效的情况。建议检查是否已设置合适的 --tensor-parallel-size、–data-parallel-size，并参考官方部署指南优化参数。如果需要详细排查和优化建议，请告知。

Sources:

Hint: Mention @RunLLM in the post for followups.

Chron · November 13, 2025, 9:57am

相同vllm参数，我在4090可以正常并发，速度很快，这是为啥

buaalyx · January 23, 2026, 2:53am

您好，我在v100上运行qwen3-vl遇到点问题，主要是不能用flash-attn，flex-attn也不能用，xformers没找到合适的版本。您那边后端attn用的是哪种？方便看一下您的完整环境吗？

nev8rz · January 23, 2026, 4:11pm

@RunLLM 相同vllm参数，我在4090可以正常并发，速度很快，这是为啥，解答一下

RunLLM · January 23, 2026, 4:11pm

主要原因是多卡服务器（如8卡4090）通常存在NUMA架构，GPU分布在不同CPU节点上，跨NUMA节点通信带宽低、延迟高，导致多卡并发推理时性能大幅下降。而单卡4090不存在跨CPU通信，推理速度和并发能力更高。相关案例和分析详见社区讨论、性能问题反馈。

如果多卡部署时未优化NUMA亲和性或缺少NVLink等高速互联，通信瓶颈会极大影响推理吞吐。建议多卡部署时通过numactl绑定CPU和内存，或只用同一NUMA节点的GPU，能显著提升并发性能。需要详细操作说明吗？

Sources:

Hint: Mention @RunLLM in the post for followups.

nev8rz · January 23, 2026, 4:12pm

@RunLLM 在v100上运行qwen3-vl遇到点问题，主要是不能用flash-attn，flex-attn也不能用，xformers没找到合适的版本。vllm后端attn用的是哪种？

RunLLM · January 23, 2026, 4:12pm

在V100上，flash-attn和flex-attn都不支持，xformers部分新版本也不兼容。vLLM会自动回退到xformers或PyTorch自带的SDPA（torch.nn.MultiheadAttention）作为attention后端。如果xformers不可用，则使用SDPA。你可以通过设置环境变量VLLM_ATTENTION_BACKEND为XFORMERS或TORCH_SDPA手动指定后端，具体选项见官方文档。

如果xformers安装有问题，建议优先尝试SDPA（TORCH_SDPA），该后端在V100上兼容性最好，但速度较慢。如需xformers编译建议或具体安装方法，请告知。

Sources:

官方文档-环境变量说明

Hint: Mention @RunLLM in the post for followups.

Topic		Replies	Views
Vllm处理长输入性能变差讨论 General	8	508	November 19, 2025
Weird benchmarking results regardin QwenVL/30B/8B/4B [solved - moe xd] General	4	580	October 21, 2025
如何提升在单机多卡部署时的吞吐量 Ray	10	405	November 24, 2025
如何尽可能提升推理服务的吞吐量 General	3	238	January 4, 2026
Vllm Latency(TTFT) Spike on load Tesing General	9	458	August 16, 2025

在V100显卡上，vLLM并发问题

Related topics