使用qwen3-14B,关掉了思考模式,使用两张A100 40G启动该服务。跑的时间久的时候会出现这个错误,降低gpu_memory_utilization会改善一点。
报错内容如下:
500 Internal Server Error
ERROR: Exception in ASGI application
vllm.v1.engine.exceptions.EngineDeadError: EngineCore encountered an issue. See stack trace (above) for the root cause.
RunLLM
2
根据报错内容,vLLM 在长时间运行后出现 500 Internal Server Error,日志显示 vllm.v1.engine.exceptions.EngineDeadError: EngineCore encountered an issue。你提到降低 gpu_memory_utilization 有所改善,但问题依然存在。
这种 EngineDeadError 通常是由于显存不足、CUDA 非法访问或资源耗尽等问题导致 EngineCore 崩溃。建议进一步降低 gpu_memory_utilization,或减少并发、上下文长度等参数,确保显存有足够冗余。此外,可参考官方文档的故障排查建议,如开启 VLLM_LOGGING_LEVEL=DEBUG、CUDA_LAUNCH_BLOCKING=1 等环境变量以定位具体原因。
需要更详细的排查步骤吗?
Sources:
1 Like