max-model-len参数决定模型的最大上下文长度(即输入+输出token总数)。如果不手动设置,vLLM会自动根据模型配置文件推断该值,但有些模型默认值可能较大,导致显存分配过多,出现OOM或性能下降等问题。你可以手动设置为8k,确保不会超出显存限制,且推理速度更可控。
如果不设置max-model-len,系统会用模型自带的最大长度,可能远大于8k,容易导致显存不足或推理变慢,尤其是在多卡环境下。建议根据实际显存和需求设置合适的max-model-len,例如8k。参考1 参考2 参考3
需要更详细的原理或配置建议吗?
Sources: