Qwen3.5-27b-fp8没有think

lzr · March 30, 2026, 2:28am

vllm版本： 0.17.0

部署脚本：CUDA_VISIBLE_DEVICES=0,1,2,3 nohup python -m vllm.entrypoints.openai.api_server --port 8101 --model /root/model/modelscope/model/Qwen/Qwen3.5-27B-FP8 --enable-auto-tool-choice --tool-call-parser qwen3_coder --tensor-parallel-size 4 --max-model-len 64000 --served-model-name Qwen3-32B-AWQ --gpu-memory-utilization 0.86 --max-num-seqs 4 --reasoning-parser qwen3 --enable-prefix-caching --enable-chunked-prefill --max-logprobs 5 --api-key ffff >> ./logs/qwen3-32b.log 2>&1 & 按照上述部署后没有think过程，直接输出是什么原因呢

RunLLM · March 30, 2026, 2:28am

根据你提供的启动参数，--reasoning-parser qwen3 已经启用，但没有出现“think”过程，直接输出结果。造成这种情况的常见原因有：

Qwen3.5-27B-FP8模型本身的推理模板或推理解析器（reasoning parser）未正确插入或解析 <think>...</think> 思考内容，或者模型权重/版本不支持思考分阶段输出。
你未设置 chat_template_kwargs 或相关参数，导致默认模板未启用思考流程。部分模型和解析器需要明确传递 {"enable_thinking": true}，否则不会生成思考内容。
vLLM 版本或模型权重与解析器适配性问题，部分模型默认关闭思考流程，或解析器未能正确识别思考标记，详见相关 issue 讨论。

建议：尝试在请求体中添加 chat_template_kwargs: {"enable_thinking": true}，或检查模型权重和解析器是否完全兼容。如果依然无效，可能是该模型权重或当前vLLM版本不支持思考分阶段输出。

需要更详细的排查步骤吗？

Sources:

Qwen3 Reasoning Parser相关讨论

Hint: Mention @RunLLM in the post for followups.

lzr · March 30, 2026, 2:31am

需要详细的排查步骤，是否和版本有关系呢，0.17.0和0.18.0都试过了

yangshanjun · March 30, 2026, 11:47am

@RunLLM VLLM_HAS_CONTEXT_DEFAULT 这个环境变量是干什么的

Topic		Replies	Views
Disabling reasoning of Qwen3-VL-8B-Thinking per request Model Support	1	3136	October 29, 2025
用vllm的pipeline方式推理Qwen3-VL-Thinking（8B)可以关闭think模式吗 General	2	461	November 26, 2025
Deployment example for a qwen3 model with hybrid thinking Reasoning Outputs	10	1509	February 4, 2026
Thinking Token limit setting General	11	397	February 26, 2026
how to disable thinking for different model? General	1	3415	September 2, 2025

Qwen3.5-27b-fp8没有think

Related topics