Vllm sleep模式使用场景

sanjer · December 23, 2025, 2:36pm

离线推理场景下，sleep模式是否可以实现单个LLM进程中进行多个不同的模型的切换并缩短模型二次加载的时间？

RunLLM · December 23, 2025, 2:37pm

离线推理场景下，vLLM的sleep模式可释放大部分GPU显存，并支持快速唤醒，显著缩短同一模型的二次加载时间，但官方文档未明确支持在单个LLM进程中切换多个不同模型，仅支持同一模型的休眠与唤醒，模型切换需重新加载权重，仍有一定延迟。据官方文档，level 2 sleep适用于权重更新或切换模型，但未说明可在同一进程内高效切换多个模型。

此外，相关issue和讨论均指出，vLLM当前不支持在单进程内同时持有或高效切换多个模型，推荐多进程或多服务实例部署。sleep模式主要优化同一模型的显存管理和加载速度，不能实现多模型无缝切换。

需要更详细的原理或代码示例吗？

Sources:

Hint: Mention @RunLLM in the post for followups.

sanjer · December 23, 2025, 2:42pm

如果只针对同一个模型进行休眠和重载有多大意义？实际使用场景举例说明？

Topic		Replies	Views
Vllm omni和vllm区别是什么 General	2	159	December 25, 2025
Scheduler in vllm Features	1	297	June 26, 2025
VLLM supporting CPU and GPU General	1	335	September 4, 2025
Why vLLM uses alot of CPU memory General	1	1429	April 21, 2025
对于vllm-ascend能力的咨询 General	3	187	June 24, 2025

Vllm sleep模式使用场景

Related topics