访问大模型程序设置10个并发。
max_num_seqs设置为8
硬件环境:两台800IA2,16张昇腾910b4-1
使用vllm-ascend-0.17
大模型为deepseek-v3.2
根据你的描述,max_num_seqs设置为8,但实际并发为10,且出现EngineDeadError。vLLM的max_num_seqs参数控制每批最大并发序列数,超出部分会排队等待,理论上不会直接导致引擎崩溃,但如果硬件资源不足或显存分配不合理,可能会导致引擎异常终止(如EngineDeadError)【参见github_issue_4c67a99c、github_issue_dbcf53da】。
此外,vLLM在高并发或大模型场景下,若max_num_seqs、max_model_len、gpu_memory_utilization等参数设置过高,容易引发OOM或引擎崩溃。建议:1)确保max_num_seqs不超过硬件实际承载能力;2)适当降低max_model_len和gpu_memory_utilization,预留部分显存用于临时计算;3)如遇持续性EngineDeadError,建议查看详细日志,排查是否为显存耗尽或多进程兼容性问题【参见github_issue_87cdc741、github_issue_5a241814】。
需要更详细的排查步骤和参数建议吗?
Sources:
Hint: Mention @RunLLM in the post for followups.