本地相同脚本并发调用时，temperature设置为0，返回结果不一致

ChenJian7578 · July 2, 2025, 2:20am

vllm部署qwen2.5vl大模型，本地相同脚本并发调用时，temperature设置为0，返回结果不一致

RunLLM · July 2, 2025, 2:21am

vLLM在Qwen2.5-VL等大模型本地并发调用时，即使temperature设为0，返回结果也可能不一致。这是因为vLLM的推理过程受并发批处理、数值不稳定性等影响，导致同样输入在不同批次或并发情况下输出不同，官方明确说明vLLM不保证完全可复现性，尤其在有并发或批处理时更易出现差异【详见官方FAQ】(docs.vllm.ai FAQ、docs.vllm.ai FAQ（稳定版）)。

此外，社区用户多次反馈Qwen系列模型在temperature=0时首个请求和后续请求输出不一致，官方也未承诺在线/并发推理的完全确定性，建议如需更高稳定性可尝试float32精度、减少并发、或单独批量推理，但仍无法完全避免差异【见相关issue】(vllm-project/vllm#17832、vllm-project/vllm#17759)。

需要更详细的原理分析和可能的规避建议吗？

Sources:

Topic		Replies	Views
Two different runs give different answers General	3	52	November 26, 2025
Transformers `do_sample=False` vs SamplingParms `temperature=0` gives different results Benchmarking	1	116	November 15, 2025
Vllm的seed是怎么做到动态随机的？ General	19	530	May 19, 2025
使用以下2种方式，获得的结果有很大差异 Benchmarking	50	1104	July 25, 2025
在V100显卡上，vLLM并发问题 General	2	107	November 13, 2025

本地相同脚本并发调用时，temperature设置为0，返回结果不一致

Related topics