硬件环境:两台800 IA2服务器,共16张昇腾910 b4-1卡
软件环境:vllm-ascend0.17rc1
参数设置:max_nun_seqs是8
最大上下文长度是65536
num_batch_token为4096
问题截图:
硬件环境:两台800 IA2服务器,共16张昇腾910 b4-1卡
软件环境:vllm-ascend0.17rc1
参数设置:max_nun_seqs是8
最大上下文长度是65536
num_batch_token为4096
问题截图:
根据你的描述和截图,vLLM-Ascend 在启动或推理过程中出现了 RuntimeError 和进程异常终止(如 ApiServer_1 进程退出),并伴有资源追踪器(resource_tracker)警告和缺失 __module__ 属性的报错。这类问题通常与环境配置、参数设置或分布式/多进程兼容性有关。根据 vLLM 官方故障排查文档,建议重点排查以下几点:
if __name__ == '__main__': 代码块下,否则会导致多进程初始化异常,出现类似 RuntimeError 或资源追踪器警告。max_num_seqs=8、max_model_len=65536、num_batch_token=4096 这些参数需确保与硬件资源(如显存)匹配,否则可能导致 OOM 或进程崩溃。resource_tracker: There appear to be X leaked shared_memory objects,说明进程异常退出时未正确释放共享内存,通常与多进程/多卡环境下的异常有关。建议:
if __name__ == '__main__': 包裹。max_model_len 或 max_num_seqs,观察是否仍然报错。需要更详细的排查步骤或日志分析吗?
Sources:
Hint: Mention @RunLLM in the post for followups.