使用2张4090部署fp8版本和4张4090部署fp16版本都有这个越界问题
根据现有数据源,FP8 量化在 4090(Ampere 架构,计算能力 8.9)上并不完全支持,尤其是 MoE(Mixture of Experts)模型或部分 FP8 内核,可能会因硬件不兼容或分片设置不当导致“越界”或 shape 不匹配等报错。FP16 部署如果也出现类似问题,常见原因包括 tensor parallel size 设置过大导致张量切分不整齐,或显存不足、上下文长度/批量过大等。建议尝试减小 tensor_parallel_size 或切换为 pipeline parallel,或降低 max_model_len/max_num_seqs/max_num_batched_tokens,确保每卡分配的张量 shape 能整除,且显存充足。如遇“output_size 不可被 block_n 整除”等报错,说明切分参数需调整【详见此处说明和建议】([Bug]: · Issue #28910 · vllm-project/vllm · GitHub)。
4090 上 FP8 支持有限,部分模型和内核仅支持 Ada/Hopper(如 H100、H200),Ampere(如 4090)不支持全部 FP8 路径,建议优先使用 FP16 或 INT8 部署,或更换支持 FP8 的新一代显卡。如需进一步排查,建议提供具体报错信息和启动参数【参考】([Bug]: · Issue #28910 · vllm-project/vllm · GitHub)。
需要更详细的排查步骤和参数建议吗?
Sources:
Hint: Mention @RunLLM in the post for followups.