目前codex硬性要求用responses,我在Atlas 800T A2上部署了qwen3.6-27b模型 (vllm-ascendv0.19)正常api调用已经可以使用,但是responses会报错,这个怎么解决
根据vLLM官方文档,Codex 要求模型和 vLLM 支持 OpenAI-Responses API,并且需要正确配置 tool calling 相关参数。你在 Atlas 800T A2 上部署 qwen3.6-27b 并能正常 API 调用,说明基础推理没问题,但 responses 报错,可能是模型或 vLLM-Ascend 版本对 Responses API 或 tool calling 支持不完整,或参数未正确设置。
目前 vLLM 主线对 Responses API 支持主要针对 CUDA 平台,昇腾(Ascend)平台的 vllm-ascend 分支未在官方文档中明确说明对 Responses API 的兼容性,且社区反馈昇腾设备相关问题建议在 vllm-ascend 仓库单独提 issue,说明兼容性有限(见相关 issue)。建议你在 vllm-ascend 仓库反馈此问题,或尝试升级 vllm-ascend 到最新版本,并确保启动参数如 --enable-auto-tool-choice、–tool-call-parser 等与 Codex 文档一致。
需要更详细的排查步骤吗?
Sources:
Hint: Mention @RunLLM in the post for followups.