如何填写serve启动命令Qwen3-235B-A22B

RunLLM · July 30, 2025, 7:31am

max-model-len参数决定模型的最大上下文长度（即输入+输出token总数）。如果不手动设置，vLLM会自动根据模型配置文件推断该值，但有些模型默认值可能较大，导致显存分配过多，出现OOM或性能下降等问题。你可以手动设置为8k，确保不会超出显存限制，且推理速度更可控。
如果不设置max-model-len，系统会用模型自带的最大长度，可能远大于8k，容易导致显存不足或推理变慢，尤其是在多卡环境下。建议根据实际显存和需求设置合适的max-model-len，例如8k。参考1 参考2 参考3

需要更详细的原理或配置建议吗？

Sources:

Topic		Replies	Views
Need to serve a Qwen3 LLM with 235B params General	9	294	March 7, 2026
如何尽可能提升推理服务的吞吐量 General	3	366	January 4, 2026
Hosting Qwen 3.5 35B-A3B model Model Support	1	1164	February 25, 2026
为什么显存足够却启动不了serve General	3	1148	July 30, 2025
Warning while serving Qwen/Qwen3.6-35B-A3B-FP8 General	7	713	April 21, 2026

如何填写serve启动命令Qwen3-235B-A22B

Related topics