W8a8两种量化方式有详细介绍吗

FAQs — vllm-ascend
Currently, w8a8 quantization is already supported by vllm-ascend originally on v0.8.4rc2 or heigher, If you’re using vllm 0.7.3 version, w8a8 quantization is supporeted with the integration of vllm-ascend and mindie-turbo, please use pip install vllm-ascend[mindie-turbo] .

上面,FAQ中描述了两种量化方式,但是没有详细介绍,请问
(1)vllm 0.7.3(mindie-turbo+vllm-ascend)支持的w8a8量化具体怎么使用,有相关工具介绍吗?
(2)两种方式使用的量化权重一样吗?

(1)关于vllm 0.7.3(mindie-turbo+vllm-ascend)支持的W8A8量化,FAQ中仅说明需通过pip install vllm-ascend[mindie-turbo]安装,但未提供详细的使用方法或具体工具介绍。官方文档和issue中也未见到更详细的操作指引,因此具体用法和工具细节无法从现有数据源获得,仅知该组合支持W8A8量化。如需进一步操作建议,建议关注vllm-ascend官方仓库和相关issue动态。

(2)关于两种方式(v0.8.4rc2原生与0.7.3+mindie-turbo)所用的量化权重是否一致,FAQ及官方文档未明确说明二者底层权重格式或兼容性,因此无法确认两种方式的量化权重是否完全一致。建议如有具体兼容性需求,直接在vllm-ascend官方仓库提问以获得开发者答复。

需要更详细的技术分析或操作流程吗?

Sources: