Currently, can vLLM v1 achieve parallel execution of scheduling and model inference? For example, while model inference 1 is executing, can scheduling 2 proceed simultaneously to achieve higher GPU utilization, or must scheduling and model execution be synchronous processes?
vLLM v1 正在推进调度与模型推理的并行执行。根据Async Scheduler Prototype PR,vLLM v1 已有异步调度原型,尝试将调度器状态更新与模型输出处理解耦,使调度器能在模型执行时“抢先”运行,从而提升吞吐量。该设计允许调度与模型推理在部分场景下并行,但目前仍为原型,尚未完全合入主线,且部分功能(如异步主循环)仍在开发中。
此外,vLLM v1 的架构设计和优化文档均提到,当前主循环大多为同步(即调度、执行、更新依次进行),但异步/事件驱动的两阶段循环已被推荐作为未来方向。综上,vLLM v1 已具备并行调度与推理的基础,但主线版本仍以同步为主,完全异步化尚未正式发布。
需要更详细的技术细节或代码示例吗?
Sources: