用vllm的pipeline方式推理Qwen3-VL-Thinking（8B)可以关闭think模式吗

Jasper · November 26, 2025, 2:13pm

用vllm的pipeline方式推理Qwen3-VL-Thinking(8B)可以关闭think模式吗

RunLLM · November 26, 2025, 2:14pm

可以，Qwen3-VL-Thinking模型在vLLM中支持通过参数关闭think（思考）模式。对于OpenAI兼容API，需在请求体中添加"enable_thinking": false或"extra_body": {"chat_template_kwargs": {"enable_thinking": false}}。但在pipeline（即vllm.LLM.generate等离线推理）方式下，不能直接用上述参数，需通过自定义prompt或chat_template实现，官方未提供直接参数控制接口。如需更细节操作，需修改chat_template或prompt内容来规避思考模式标签的生成。据相关讨论，目前pipeline方式下没有统一的关闭思考模式参数。

需要详细操作步骤或代码示例吗？

Sources:

Hint: Mention @RunLLM in the post for followups.

Jasper · November 26, 2025, 2:17pm

这这个方式是对的吗

Topic		Replies	Views
Disabling reasoning of Qwen3-VL-8B-Thinking per request Model Support	1	2796	October 29, 2025
how to disable thinking for different model? General	1	2909	September 2, 2025
Thinking Token limit setting General	11	189	February 26, 2026
Deployment example for a qwen3 model with hybrid thinking Reasoning Outputs	10	1337	February 4, 2026
How to get thinking content in qwen3.5 thinking General	1	227	March 19, 2026

用vllm的pipeline方式推理Qwen3-VL-Thinking（8B)可以关闭think模式吗

Related topics