Vllm-ascend运行deepseekv3.2时出现bug!

硬件环境:两台800 IA2服务器,共16张昇腾910 b4-1卡

软件环境:vllm-ascend0.17rc1

参数设置:max_nun_seqs是8

最大上下文长度是65536

num_batch_token为4096

问题截图:

根据你的描述和截图,vLLM-Ascend 在启动或推理过程中出现了 RuntimeError 和进程异常终止(如 ApiServer_1 进程退出),并伴有资源追踪器(resource_tracker)警告和缺失 __module__ 属性的报错。这类问题通常与环境配置、参数设置或分布式/多进程兼容性有关。根据 vLLM 官方故障排查文档,建议重点排查以下几点:

  1. 多进程启动方式:vLLM 强烈建议所有 vLLM 相关代码都放在 if __name__ == '__main__': 代码块下,否则会导致多进程初始化异常,出现类似 RuntimeError 或资源追踪器警告。
  2. 参数设置max_num_seqs=8max_model_len=65536num_batch_token=4096 这些参数需确保与硬件资源(如显存)匹配,否则可能导致 OOM 或进程崩溃。
  3. 环境变量与依赖:确保 Python 版本、依赖包(如 torch、triton 等)与 vLLM-Ascend 0.17rc1 兼容,且未混用 CUDA 相关依赖。
  4. 资源泄漏警告:如有 resource_tracker: There appear to be X leaked shared_memory objects,说明进程异常退出时未正确释放共享内存,通常与多进程/多卡环境下的异常有关。

建议:

  • 检查启动脚本,确保主入口用 if __name__ == '__main__': 包裹。
  • 降低 max_model_lenmax_num_seqs,观察是否仍然报错。
  • 检查 Python 依赖和环境变量,避免 CUDA/Ascend 混用。
  • 参考官方多进程排查建议

需要更详细的排查步骤或日志分析吗?

Sources:

Hint: Mention @RunLLM in the post for followups.