什么情况下，一个请求会被重复schedule?

yangshanjun · December 8, 2025, 4:18am

@RunLLM 什么情况下，一个请求会被重复schedule?

yangshanjun · December 8, 2025, 5:45am

@RunLLM 我有一个打印，同一个请求，一直在循环做 build_connector_meta

RunLLM · December 8, 2025, 5:46am

你的问题描述是：同一个请求在循环中不断执行 build_connector_meta。根据 vLLM 的 KV Connector 设计，build_connector_meta 应该在每个推理 step 只被调用一次，并且每次调用后会重置 connector 的内部状态。如果你发现同一个请求在循环中反复调用 build_connector_meta，可能是你的 connector 没有正确清理状态，或者外部调度逻辑有误。建议检查 connector 的实现，确保 build_connector_meta 调用后状态被清空，且没有被多次触发（详见 KVConnectorBase_V1.build_connector_meta 文档）。

如果你用的是 MultiConnector 或自定义 connector，也要确保每个子 connector 的 build_connector_meta 行为符合预期（见 MultiConnector 文档）。如需进一步排查，请提供更详细的调用栈或伪代码。

需要详细分析原因和排查建议吗？

Sources:

Hint: Mention @RunLLM in the post for followups.

yangshanjun · December 8, 2025, 6:27am

@RunLLM 什么情况下，一个请求会被重复schedule?

RunLLM · December 8, 2025, 6:27am

在vLLM中，如果请求被抢占（preempted），如KV cache空间不足或高优先级请求到来，原有请求会被移出运行队列，稍后重新进入等待队列并再次被schedule，这时就会发生同一个请求被重复调度（reschedule）的情况。此机制保证系统鲁棒性，但频繁抢占会影响端到端延迟。详见官方优化与调度文档。

此外，KV cache加载失败、LoRA权重切换等特殊场景下，也可能导致请求被重新调度。调度器会根据资源和策略动态决定哪些请求需要reschedule。相关源码实现可参考scheduler.py。

需要更详细的调度流程或源码分析吗？

Sources:

Hint: Mention @RunLLM in the post for followups.

yangshanjun · December 8, 2025, 7:08am

@RunLLM 只有 preempted_reqs 为空的时候，才会处理 waiting队列吗

RunLLM · December 8, 2025, 7:08am

是的，只有当 preempted_reqs 为空时，vLLM 调度器才会处理 waiting 队列中的请求。调度器优先处理已被抢占（preempted）的请求，只有这些请求全部处理完毕后，才会从 waiting 队列中调度新请求进入运行队列。详见源码实现和 API 文档说明。

需要详细解释调度优先级和流程吗？

Sources:

Hint: Mention @RunLLM in the post for followups.

yangshanjun · December 8, 2025, 7:14am

@RunLLM preempted_reqs 里的请求是在哪里处理的，没看到 preempted_reqs 队列出队列的代码

RunLLM · December 8, 2025, 7:14am

preempted_reqs 里的请求会被调度器通过 self.waiting.prepend_request(preempted_req) 放回 waiting 队列，随后在后续调度周期中重新被调度。preempted_reqs 本身只是临时记录本轮被抢占的请求，实际“出队”操作是在调用 prepend_request 时完成的。详见 scheduler.py 源码。

需要详细源码流程或伪代码说明吗？

Sources:

https://github.com/vllm-project/vllm/blob/main/vllm/v1/core/sched/scheduler.py

Hint: Mention @RunLLM in the post for followups.

yangshanjun · December 8, 2025, 7:16am

@RunLLM 但是 waiting队列，不是要当 preempted_reqs为空的到时候才会处理吗，这不是互锁了吗

yangshanjun · December 8, 2025, 7:25am

@RunLLM 但是 waiting队列，不是要当 preempted_reqs为空的到时候才会处理吗，这不是互锁了吗

RunLLM · December 8, 2025, 7:25am

不是死锁。vLLM 调度器的设计是：每次调度周期，优先处理 preempted_reqs（即刚被抢占的请求），只有当 preempted_reqs 为空时，才会处理 waiting 队列。这样做是为了保证被抢占的请求能尽快恢复，防止饿死（starvation），而不是互相阻塞。详见源码实现。

只要 preempted_reqs 里的请求被 prepend 到 waiting 队列，下一轮调度就会被优先处理，不会出现互锁或死循环。如果你需要更详细的调度流程分析，可以继续提问。

Sources:

https://github.com/vllm-project/vllm/blob/main/vllm/v1/core/sched/scheduler.py

Hint: Mention @RunLLM in the post for followups.

yangshanjun · January 2, 2026, 2:41pm

@RunLLM 对于chunk prefill，对于一个160长的prompt，如何chunk size为64，会分为[64,64,32]三个req，对于第二个和第三个 req的计算，相比于第一个计算有什么区别，第二、三个计算需要引用第一个req的结果吗

RunLLM · January 2, 2026, 2:41pm

我的理解是，chunk prefill 时，一个160长度的prompt，chunk size为64，会被分为[64, 64, 32]三段。每一段不是独立的请求，而是同一个请求的连续分块，第二、三段的计算需要依赖前一段的KV cache（即前一段的中间结果），否则无法保证上下文连贯性。官方文档说明和源码实现都表明，后续chunk会复用前面chunk的KV cache，只有这样才能实现长prompt的分块推理。

需要详细的KV cache传递机制或源码解读吗？

Sources:

https://github.com/vllm-project/vllm/issues/3130

Hint: Mention @RunLLM in the post for followups.

yangshanjun · January 2, 2026, 2:42pm

@RunLLM ，只会引用前面chunk的kv cache吗

RunLLM · January 2, 2026, 2:43pm

是的，chunk prefill 时，后续chunk（如第二、第三个chunk）只会引用前面chunk的KV cache（即中间状态），不会重新计算前面chunk的内容。每个chunk的计算都在前一chunk的KV cache基础上继续，保证上下文连续性。详见官方chunked prefill算法说明。

需要更详细的KV cache传递或chunk调度机制说明吗？

Sources:

https://docs.vllm.ai/en/stable/api/vllm/vllm.v1.attention.backends.mla.common.html#chunked-prefill

Hint: Mention @RunLLM in the post for followups.

yangshanjun · January 2, 2026, 2:44pm

@RunLLM 前面的chunk的输出结果和最后一个chunk的输出结果有什么不同，前面的chunk有输出吗

RunLLM · January 2, 2026, 2:44pm

前面的chunk（如第1、2个chunk）通常不会直接输出生成token，其主要作用是计算并缓存KV（中间状态），为后续chunk提供上下文。只有最后一个chunk完成后，才会输出生成的token。详见官方chunked prefill机制说明和性能文档。

因此，前面的chunk一般没有直接输出，只有最后一个chunk才有最终的生成输出。

Sources:

https://github.com/vllm-project/vllm/issues/3130

Hint: Mention @RunLLM in the post for followups.

yangshanjun · January 2, 2026, 2:47pm

@RunLLM 前面的chunk没有直接输出，是将前面的chunk的输出直接丢弃了吗

yangshanjun · January 2, 2026, 2:57pm

@RunLLM 前面的chunk没有直接输出，是将前面的chunk的输出直接丢弃了吗

Topic		Replies	Views
Pp8并行，update_from_output 会等所有rank的 model_executor.execute_model 执行完了之后才会执行吗 General	84	323	January 8, 2026
Vllm中，deepseek的模型刷新kvcache的地方在哪 General	44	128	March 30, 2026
VLLM V1 Scheduler: Inconsistent Request Scheduling Under Token Budget Limit General	25	296	December 17, 2025
Why is it so slow to build a odeVLLM from source using Docker? General	39	118	January 17, 2026
一个长输入的请求，切chunk ，比如切了4份，prefill的时候，这四个可以同时做prefill 吗，还是有依赖关系的 General	15	140	January 21, 2026

什么情况下，一个请求会被重复schedule?

Related topics