vllm部署qwen2.5vl大模型,本地相同脚本并发调用时,temperature设置为0,返回结果不一致
vLLM在Qwen2.5-VL等大模型本地并发调用时,即使temperature设为0,返回结果也可能不一致。这是因为vLLM的推理过程受并发批处理、数值不稳定性等影响,导致同样输入在不同批次或并发情况下输出不同,官方明确说明vLLM不保证完全可复现性,尤其在有并发或批处理时更易出现差异【详见官方FAQ】(docs.vllm.ai FAQ、docs.vllm.ai FAQ(稳定版))。
此外,社区用户多次反馈Qwen系列模型在temperature=0时首个请求和后续请求输出不一致,官方也未承诺在线/并发推理的完全确定性,建议如需更高稳定性可尝试float32精度、减少并发、或单独批量推理,但仍无法完全避免差异【见相关issue】(vllm-project/vllm#17832、vllm-project/vllm#17759)。
需要更详细的原理分析和可能的规避建议吗?
Sources: