vLLM的MTP的标准测试方法是什么？

Wayne-Bfx · June 13, 2026, 11:13am

vllm用随机值进行MTP性能的测试，接受率很低。是测试方法有问题，还是其他的什么原因？有标准的测试规范吗

RunLLM · June 13, 2026, 11:13am

vLLM在使用随机输入（如benchmark的random dataset）进行MTP（Multi-Token Prediction）性能测试时，通常会出现接受率（acceptance rate）很低的现象。这是因为随机生成的输入分布与真实业务场景差异较大，导致speculative decoding的草稿token与最终token匹配概率极低，从而拉低了MTP的接受率。官方文档和多条issue均指出，纯性能基准测试下MTP接受率往往偏低，不能代表真实推理场景的加速效果，实际业务中通常会高很多。标准做法是用真实或接近真实分布的prompt进行测试，或参考官方benchmark脚本和参数设置进行评估【详见官方说明和案例】。

具体可参考GLM5官方文档和相关issue讨论，其中明确指出“在纯性能基准测试中，MTP接受率往往较低，测得的吞吐量可能低估了模型在真实场景下的速度”。如需标准测试，建议关闭prefix caching，使用官方推荐的参数和真实数据集进行评测。

需要更详细的测试规范和参数设置说明吗？

Sources:

Hint: Mention @RunLLM in the post for followups.

Wayne-Bfx · June 13, 2026, 11:15am

我急切需要详细的测试规范和参数设置说明，可以更好的帮助我规范测试流程

Topic		Replies	Views
vLLM服务开启了MTP，则如何评估指定维度的真实吞吐 Benchmarking	2	68	May 25, 2026
Why is it so slow to build a odeVLLM from source using Docker? General	39	668	January 17, 2026
使用以下2种方式，获得的结果有很大差异 Benchmarking	50	2301	July 25, 2025
Does vllm support draft model use tp>1 when I use speculative decoding Speculative Decoding	1	210	July 29, 2025
Speculative decoding is currently incompatible with pipeline parallelism General	3	1031	July 8, 2025

vLLM的MTP的标准测试方法是什么？

Related topics