昇腾920b是否支持通义千问2.5-vl

vllm-ascend支持通义千问2.5-VL的推理吗

vllm-ascend(昇腾NPU版vLLM)已支持Qwen2.5-VL等多模态大模型的推理,但具体兼容性和性能表现需参考vllm-ascend官方仓库说明。若遇到推理速度慢等问题,建议在vllm-ascend仓库提交issue获取支持。根据社区反馈,Qwen2.5-VL-32B-Instruct在2张Ascend 910卡上可运行,但速度约8~9 tokens/s,属于正常范围。如需进一步优化或遇到兼容性问题,建议关注该仓库的更新和FAQ。

如需详细配置和使用方法,请参考vllm-ascend官方文档或在相关issue区提问。相关讨论已建议将问题反馈至vllm-ascend仓库。

Sources:

Hint: Mention @RunLLM in the post for followups.

Please refer to ^