W8a8两种量化方式有详细介绍吗

snowlts · June 15, 2025, 9:45am

FAQs — vllm-ascend
Currently, w8a8 quantization is already supported by vllm-ascend originally on v0.8.4rc2 or heigher, If you’re using vllm 0.7.3 version, w8a8 quantization is supporeted with the integration of vllm-ascend and mindie-turbo, please use pip install vllm-ascend[mindie-turbo] .

上面，FAQ中描述了两种量化方式，但是没有详细介绍，请问
（1）vllm 0.7.3（mindie-turbo+vllm-ascend）支持的w8a8量化具体怎么使用，有相关工具介绍吗？
（2）两种方式使用的量化权重一样吗？

RunLLM · June 15, 2025, 9:46am

（1）关于vllm 0.7.3（mindie-turbo+vllm-ascend）支持的W8A8量化，FAQ中仅说明需通过pip install vllm-ascend[mindie-turbo]安装，但未提供详细的使用方法或具体工具介绍。官方文档和issue中也未见到更详细的操作指引，因此具体用法和工具细节无法从现有数据源获得，仅知该组合支持W8A8量化。如需进一步操作建议，建议关注vllm-ascend官方仓库和相关issue动态。

（2）关于两种方式（v0.8.4rc2原生与0.7.3+mindie-turbo）所用的量化权重是否一致，FAQ及官方文档未明确说明二者底层权重格式或兼容性，因此无法确认两种方式的量化权重是否完全一致。建议如有具体兼容性需求，直接在vllm-ascend官方仓库提问以获得开发者答复。

需要更详细的技术分析或操作流程吗？

Sources:

Topic		Replies	Views
RTX PRO6000运行Qwen3-32B-FP8量化版本出错 General	1	211	July 4, 2025
RTX Pro 6000运行Qwen3-32B-FP8报错 General	1	286	July 4, 2025
Performance Degradation and Compatibility Issues with AWQ Quantization in vLLM (Qwen2.5-VL-32B) Features	1	238	July 23, 2025
Question about vLLM and vLLM Ascend verisoning policy Ascend Support	4	234	April 1, 2025
MoE quantization Quantization	9	743	July 2, 2025

W8a8两种量化方式有详细介绍吗

Related topics