Vllm-ascend处理多并发时遇到问题

loveqingping · March 23, 2026, 10:41am

访问大模型程序设置10个并发。

max_num_seqs设置为8

硬件环境：两台800IA2，16张昇腾910b4-1

使用vllm-ascend-0.17

大模型为deepseek-v3.2

RunLLM · March 23, 2026, 10:41am

根据你的描述，max_num_seqs设置为8，但实际并发为10，且出现EngineDeadError。vLLM的max_num_seqs参数控制每批最大并发序列数，超出部分会排队等待，理论上不会直接导致引擎崩溃，但如果硬件资源不足或显存分配不合理，可能会导致引擎异常终止（如EngineDeadError）【参见github_issue_4c67a99c、github_issue_dbcf53da】。

此外，vLLM在高并发或大模型场景下，若max_num_seqs、max_model_len、gpu_memory_utilization等参数设置过高，容易引发OOM或引擎崩溃。建议：1）确保max_num_seqs不超过硬件实际承载能力；2）适当降低max_model_len和gpu_memory_utilization，预留部分显存用于临时计算；3）如遇持续性EngineDeadError，建议查看详细日志，排查是否为显存耗尽或多进程兼容性问题【参见github_issue_87cdc741、github_issue_5a241814】。

需要更详细的排查步骤和参数建议吗？

Sources:

Hint: Mention @RunLLM in the post for followups.

Topic		Replies	Views
Vllm-ascend运行deepseekv3.2时出现bug！ General	1	5	March 23, 2026
Vllm-ascend运行deepseekv3.2遇到问题 General	1	11	March 24, 2026
使用容器启动vllm，双卡运行，请求频繁会挂掉 General	1	849	July 29, 2025
Help with vLLM crashes General	1	443	December 16, 2025
使用vllm_ascend0.9.1提示Failed to import vllm_ascend_C: Ascend Support	2	173	November 20, 2025

Vllm-ascend处理多并发时遇到问题

Related topics