vLLM的MTP的标准测试方法是什么?

vllm用随机值进行MTP性能的测试,接受率很低。是测试方法有问题,还是其他的什么原因?有标准的测试规范吗

vLLM在使用随机输入(如benchmark的random dataset)进行MTP(Multi-Token Prediction)性能测试时,通常会出现接受率(acceptance rate)很低的现象。这是因为随机生成的输入分布与真实业务场景差异较大,导致speculative decoding的草稿token与最终token匹配概率极低,从而拉低了MTP的接受率。官方文档和多条issue均指出,纯性能基准测试下MTP接受率往往偏低,不能代表真实推理场景的加速效果,实际业务中通常会高很多。标准做法是用真实或接近真实分布的prompt进行测试,或参考官方benchmark脚本和参数设置进行评估【详见官方说明和案例】。

具体可参考GLM5官方文档相关issue讨论,其中明确指出“在纯性能基准测试中,MTP接受率往往较低,测得的吞吐量可能低估了模型在真实场景下的速度”。如需标准测试,建议关闭prefix caching,使用官方推荐的参数和真实数据集进行评测。

需要更详细的测试规范和参数设置说明吗?

Sources:

Hint: Mention @RunLLM in the post for followups.

我急切需要详细的测试规范和参数设置说明,可以更好的帮助我规范测试流程