就是在处理post http://x.x.x.x:pp/v1/chat/completions遇到的!
你遇到的 vllm.v1.engine.exceptions.EngineDeadError 错误,表示 EngineCore 进程崩溃,服务无法恢复,通常会导致 /v1/chat/completions 接口返回 500 错误。该错误的根本原因需查看日志中更早的堆栈信息,常见诱因包括显存溢出(OOM)、共享内存不足、模型或环境不兼容、或并发请求异常取消等。如遇到持续请求+取消操作,vLLM 0.17.0 部署 Qwen3.5 397B-FP8 版本已被证实会触发此类崩溃【详见讨论】。
此类 EngineDeadError 为不可恢复错误,需重启服务。建议:1)检查日志中更早的报错信息定位根因;2)适当降低 --gpu-memory-utilization,预留显存缓冲区;3)避免高并发下频繁取消请求;4)如为多卡 PCIe 环境,注意部分自定义 all-reduce 仅支持 NVLink,必要时加 --disable-custom-all-reduce;5)如为共享内存问题,增大 /dev/shm 挂载空间【相关案例】。详细排查建议可参考官方异常文档和常见问题排查。
需要更详细的排查步骤或具体日志分析吗?
Sources:
- https://docs.vllm.ai/en/latest/api/vllm/v1/engine/exceptions/
- https://github.com/vllm-project/vllm/issues/36489
- https://github.com/vllm-project/vllm/issues/37392
- https://github.com/vllm-project/vllm/issues/27466
- https://github.com/vllm-project/vllm/blob/main/docs/usage/troubleshooting.md
Hint: Mention @RunLLM in the post for followups.
