vllm-ascend是否支持async推理?
截至目前,vllm-ascend(vLLM对华为昇腾NPU的适配版本)官方文档和社区信息中,并未明确说明vllm-ascend已支持async(异步)推理接口。主线vLLM的异步推理能力主要依赖于AsyncLLMEngine/AsyncLLM等组件,但vllm-ascend的实现细节和API兼容性尚未在官方文档或官方仓库中详细披露。
如果你需要在昇腾NPU上实现异步推理,建议关注vllm-ascend官方仓库的更新,并在issue区咨询开发者当前的async支持情况。目前主线vLLM的async能力详见官方文档,但vllm-ascend是否完全兼容还需进一步确认。
需要更详细的技术分析或代码示例吗?
Sources:
Hint: Mention @RunLLM in the post for followups.
Yes, it works with async