Vllm中，使能了chunk prefill, 那它的chunk size是在哪里设的，他和 long_prefill_token_threshold参数有关系吗

yangshanjun · November 23, 2025, 1:32am

vllm中，使能了chunk prefill, 那它的chunk size是在哪里设的，他和 long_prefill_token_threshold参数有关系吗，还有max_long_partial_prefills 这个参数是的含义是？

RunLLM · November 23, 2025, 1:32am

vLLM 中 chunked prefill 的 chunk size 主要由 max_num_batched_tokens 控制，每次调度时会根据剩余 token 预算自动切分，chunk size 没有单独的参数直接设置，但可以通过调整 max_num_batched_tokens 间接影响 chunk 大小。long_prefill_token_threshold 用于判定“长”请求，超过该阈值的 prompt 会被视为长请求，调度时可限制每步处理的 token 数，避免长请求阻塞短请求，提升整体延迟表现。max_long_partial_prefills 则表示并发 prefill 的长请求最大数量，若设置小于 max_num_partial_prefills，可让短请求插队，进一步优化延迟表现。三者协同影响 chunked prefill 的行为和调度优先级。详细说明见官方文档、API 参数说明。

需要更详细的参数关系和调度机制说明吗？

Sources:

Hint: Mention @RunLLM in the post for followups.

Topic		Replies	Views
一个长输入的请求，切chunk ，比如切了4份，prefill的时候，这四个可以同时做prefill 吗，还是有依赖关系的 General	15	55	January 21, 2026
Why is chunked prefill always enabled in V1? General	3	580	September 18, 2025
It seems that vLLM stops due to prefill General	1	191	September 22, 2025
Should vLLM consider prefix caching when chunked prefill is enabled? General	1	283	June 24, 2025
Question about profile run General	7	256	July 26, 2025

Vllm中，使能了chunk prefill, 那它的chunk size是在哪里设的，他和 long_prefill_token_threshold参数有关系吗

Related topics