为什么显存足够却启动不了serve

你的日志显示 Qwen3-235B-A22B 在 4×H20(95G) 上启动时,WorkerProc 进程因 CUDA OOM(显存不足)报错,具体为“torch.OutOfMemoryError: CUDA out of memory. Tried to allocate 768.00 MiB. GPU 3 has a total capacity of 95.00 GiB of which 600.06 MiB is free…”。这说明模型权重和相关缓存已占满所有显存,导致无法分配新内存,进程直接崩溃退出。相关文档明确指出,模型过大超出单卡/多卡总显存时会 OOM,需采取措施降低内存消耗。

建议尝试以下措施:1)降低 max_model_len(如 40960 改为 8192 或更低);2)减少 max_num_seqs(批量数);3)尝试模型量化(如 int4/8);4)如支持,增大 tensor_parallel_size 或使用 expert parallelism;5)加 --gpu-memory-utilization 0.8 或更低,限制 vLLM 占用显存比例;6)如有 CPU 内存富余,可用 --cpu-offload-gb 适当 offload。具体参数和方法详见官方内存优化文档常见OOM问题讨论

需要更详细的排查和参数建议吗?

Sources: