用vllm的pipeline方式推理Qwen3-VL-Thinking(8B)可以关闭think模式吗

用vllm的pipeline方式推理Qwen3-VL-Thinking(8B)可以关闭think模式吗

可以,Qwen3-VL-Thinking模型在vLLM中支持通过参数关闭think(思考)模式。对于OpenAI兼容API,需在请求体中添加"enable_thinking": false"extra_body": {"chat_template_kwargs": {"enable_thinking": false}}。但在pipeline(即vllm.LLM.generate等离线推理)方式下,不能直接用上述参数,需通过自定义prompt或chat_template实现,官方未提供直接参数控制接口。如需更细节操作,需修改chat_template或prompt内容来规避思考模式标签的生成。据相关讨论,目前pipeline方式下没有统一的关闭思考模式参数。

需要详细操作步骤或代码示例吗?

Sources:

Hint: Mention @RunLLM in the post for followups.

这这个方式是对的吗