VLLM V1 Scheduler: Inconsistent Request Scheduling Under Token Budget Limit

yangshanjun · December 17, 2025, 9:53am

@RunLLM _compute_prefill_context 带context的 prefill 是什么意思

RunLLM · December 17, 2025, 9:54am

带context的prefill，指的是在prefill阶段（即模型处理prompt时），不仅要处理当前请求的新token，还要利用之前已存在的上下文（context）token，通常用于长文本分块、chunked prefill或prefix cache等场景。_compute_prefill_context函数就是在prefill时，针对有上下文（如KV cache已存在部分token）的情况，分多次/分块处理这些token，并合并注意力输出。源码详见。

简单说：带context的prefill就是“用已有上下文+新token一起做prefill”，常见于长文本推理、分块prefill、prefix cache等。

需要详细的流程或代码解读吗？

Sources:

源码详见

Hint: Mention @RunLLM in the post for followups.

yangshanjun · December 17, 2025, 10:01am

@RunLLM 这种带context的prefill是如何计算的

RunLLM · December 17, 2025, 10:01am

带context的prefill会将已有的上下文（如KV cache中的历史token）与当前新token一起参与注意力计算。具体做法是：先将新token和context token分块（chunk），每个chunk分别计算query/key/value，然后通过多轮迭代、分块gather和allgather等操作，把所有chunk的KV cache合并，最后合成完整的注意力输出。详细源码流程见。

这种方式可以高效处理长上下文，支持分块prefill和prefix cache等场景，保证新token能正确“看到”全部历史context。

需要详细的代码流程或伪代码示例吗？

Sources:

详细源码流程见

Hint: Mention @RunLLM in the post for followups.

yangshanjun · December 17, 2025, 10:18am

@RunLLM chunk prefill 会不会造成 attention计算量增加，相比如整个prompt

RunLLM · December 17, 2025, 10:18am

chunk prefill（分块预填充）不会增加attention的总计算量，相比一次性处理整个prompt，attention的总FLOPs基本相同。chunk prefill只是将长prompt分多次、每次处理一部分token，每次attention的计算量减少，但总和与整体处理一致。官方文档说明和实现细节均明确指出chunked prefill的本质是分批处理，计算总量不变。

但chunk prefill会带来一定的调度和KV cache访问开销，极端情况下可能略有性能损耗，但不会导致attention FLOPs增加。

需要详细的分块attention伪代码或性能分析吗？

Sources:

Hint: Mention @RunLLM in the post for followups.

Topic		Replies	Views
Num request running stays on 1 Benchmarking	3	249	August 29, 2025
一个长输入的请求，切chunk ，比如切了4份，prefill的时候，这四个可以同时做prefill 吗，还是有依赖关系的 General	15	81	January 21, 2026
Scheduler in vllm Features	1	304	June 26, 2025
什么情况下，一个请求会被重复schedule? General	58	113	January 6, 2026
VLLM 0.10.1 benchmark do not free memory Benchmarking	13	152	November 10, 2025

VLLM V1 Scheduler: Inconsistent Request Scheduling Under Token Budget Limit

Related topics