vllm中,使能了chunk prefill, 那它的chunk size是在哪里设的,他和 long_prefill_token_threshold参数有关系吗,还有max_long_partial_prefills 这个参数是的含义是?
vLLM 中 chunked prefill 的 chunk size 主要由 max_num_batched_tokens 控制,每次调度时会根据剩余 token 预算自动切分,chunk size 没有单独的参数直接设置,但可以通过调整 max_num_batched_tokens 间接影响 chunk 大小。long_prefill_token_threshold 用于判定“长”请求,超过该阈值的 prompt 会被视为长请求,调度时可限制每步处理的 token 数,避免长请求阻塞短请求,提升整体延迟表现。max_long_partial_prefills 则表示并发 prefill 的长请求最大数量,若设置小于 max_num_partial_prefills,可让短请求插队,进一步优化延迟表现。三者协同影响 chunked prefill 的行为和调度优先级。详细说明见官方文档、API 参数说明。
需要更详细的参数关系和调度机制说明吗?
Sources:
Hint: Mention @RunLLM in the post for followups.