lzr
1
vllm版本: 0.17.0
部署脚本:CUDA_VISIBLE_DEVICES=0,1,2,3 nohup python -m vllm.entrypoints.openai.api_server --port 8101 --model /root/model/modelscope/model/Qwen/Qwen3.5-27B-FP8 --enable-auto-tool-choice --tool-call-parser qwen3_coder --tensor-parallel-size 4 --max-model-len 64000 --served-model-name Qwen3-32B-AWQ --gpu-memory-utilization 0.86 --max-num-seqs 4 --reasoning-parser qwen3 --enable-prefix-caching --enable-chunked-prefill --max-logprobs 5 --api-key ffff >> ./logs/qwen3-32b.log 2>&1 & 按照上述部署后没有think过程,直接输出是什么原因呢
RunLLM
2
根据你提供的启动参数,--reasoning-parser qwen3 已经启用,但没有出现“think”过程,直接输出结果。造成这种情况的常见原因有:
- Qwen3.5-27B-FP8模型本身的推理模板或推理解析器(reasoning parser)未正确插入或解析
<think>...</think> 思考内容,或者模型权重/版本不支持思考分阶段输出。
- 你未设置
chat_template_kwargs 或相关参数,导致默认模板未启用思考流程。部分模型和解析器需要明确传递 {"enable_thinking": true},否则不会生成思考内容。
- vLLM 版本或模型权重与解析器适配性问题,部分模型默认关闭思考流程,或解析器未能正确识别思考标记,详见相关 issue 讨论。
建议:尝试在请求体中添加 chat_template_kwargs: {"enable_thinking": true},或检查模型权重和解析器是否完全兼容。如果依然无效,可能是该模型权重或当前vLLM版本不支持思考分阶段输出。
需要更详细的排查步骤吗?
Sources:
Hint: Mention @RunLLM in the post for followups.
lzr
3
需要详细的排查步骤,是否和版本有关系呢,0.17.0和0.18.0都试过了
@RunLLM VLLM_HAS_CONTEXT_DEFAULT 这个环境变量是干什么的