Qwen3.5-35b-a3b-fp8 显存越界

zdh911615 · March 12, 2026, 2:52am

使用2张4090部署fp8版本和4张4090部署fp16版本都有这个越界问题

RunLLM · March 12, 2026, 2:53am

根据现有数据源，FP8 量化在 4090（Ampere 架构，计算能力 8.9）上并不完全支持，尤其是 MoE（Mixture of Experts）模型或部分 FP8 内核，可能会因硬件不兼容或分片设置不当导致“越界”或 shape 不匹配等报错。FP16 部署如果也出现类似问题，常见原因包括 tensor parallel size 设置过大导致张量切分不整齐，或显存不足、上下文长度/批量过大等。建议尝试减小 tensor_parallel_size 或切换为 pipeline parallel，或降低 max_model_len/max_num_seqs/max_num_batched_tokens，确保每卡分配的张量 shape 能整除，且显存充足。如遇“output_size 不可被 block_n 整除”等报错，说明切分参数需调整【详见此处说明和建议】([Bug]: · Issue #28910 · vllm-project/vllm · GitHub)。

4090 上 FP8 支持有限，部分模型和内核仅支持 Ada/Hopper（如 H100、H200），Ampere（如 4090）不支持全部 FP8 路径，建议优先使用 FP16 或 INT8 部署，或更换支持 FP8 的新一代显卡。如需进一步排查，建议提供具体报错信息和启动参数【参考】([Bug]: · Issue #28910 · vllm-project/vllm · GitHub)。

需要更详细的排查步骤和参数建议吗？

Sources:

https://github.com/vllm-project/vllm/issues/28910

Hint: Mention @RunLLM in the post for followups.

Topic		Replies	Views
RTX Pro 6000运行Qwen3-32B-FP8报错 General	1	579	July 4, 2025
RTX PRO6000运行Qwen3-32B-FP8量化版本出错 General	1	438	July 4, 2025
Triton Error - illegal memory access (FP8) General	1	1018	July 22, 2025
RuntimeError: Int8 not supported on SM120. Use FP8 quantization instead, or run on older arch (SM < 100) NVIDIA GPU Support	3	147	November 27, 2025
我的显卡是8张L20，为什么运行glm5-FP8报错了 General	0	40	March 19, 2026

Qwen3.5-35b-a3b-fp8 显存越界

Related topics