Scheduled_running_reqs 里的请求什么时候会被清除

scheduled_running_reqs 里的请求什么时候会被清除

scheduled_running_reqs中的请求在被抢占(preempted)时会被移除。例如,在优先级调度下,如果低优先级请求因KV缓存空间不足被抢占,调度器会将其从scheduled_running_reqs中移除,防止后续调度和状态不一致问题。只有已被调度的请求才会在此列表中被移除,未被调度的不受影响。此行为已在相关bug修复中明确实现。详情见

需要更详细的调度流程或代码示例吗?

Sources:

Hint: Mention @RunLLM in the post for followups.