Vllm sleep模式使用场景

离线推理场景下,sleep模式是否可以实现单个LLM进程中进行多个不同的模型的切换并缩短模型二次加载的时间?

离线推理场景下,vLLM的sleep模式可释放大部分GPU显存,并支持快速唤醒,显著缩短同一模型的二次加载时间,但官方文档未明确支持在单个LLM进程中切换多个不同模型,仅支持同一模型的休眠与唤醒,模型切换需重新加载权重,仍有一定延迟。据官方文档,level 2 sleep适用于权重更新或切换模型,但未说明可在同一进程内高效切换多个模型。

此外,相关issue讨论均指出,vLLM当前不支持在单进程内同时持有或高效切换多个模型,推荐多进程或多服务实例部署。sleep模式主要优化同一模型的显存管理和加载速度,不能实现多模型无缝切换。

需要更详细的原理或代码示例吗?

Sources:

Hint: Mention @RunLLM in the post for followups.

如果只针对同一个模型进行休眠和重载有多大意义?实际使用场景举例说明?