vllm-ascend支持通义千问2.5-VL的推理吗
vllm-ascend(昇腾NPU版vLLM)已支持Qwen2.5-VL等多模态大模型的推理,但具体兼容性和性能表现需参考vllm-ascend官方仓库说明。若遇到推理速度慢等问题,建议在vllm-ascend仓库提交issue获取支持。根据社区反馈,Qwen2.5-VL-32B-Instruct在2张Ascend 910卡上可运行,但速度约8~9 tokens/s,属于正常范围。如需进一步优化或遇到兼容性问题,建议关注该仓库的更新和FAQ。
如需详细配置和使用方法,请参考vllm-ascend官方文档或在相关issue区提问。相关讨论已建议将问题反馈至vllm-ascend仓库。
Sources:
Hint: Mention @RunLLM in the post for followups.
Please refer to ^