Vllm推理指标如何做可视化?

vllm有什么自带工具,或者其他项目的工具,可以将推理中的各项开销(如显存分配,prefill时长,decode时长等)做可视化吗

1 Like

vLLM 官方文档未直接提供内置的可视化工具用于推理过程中的显存分配、prefill/解码时长等指标的可视化,但支持通过 Prometheus metrics 进行监控,用户可结合 Prometheus + Grafana 等第三方工具实现自定义可视化监控。相关监控指标包括 preemption 次数、KV cache 使用率等,可用于分析性能瓶颈和资源分配情况。据 Optimization and Tuning 说明,vLLM 会暴露 Prometheus metrics,用户可据此搭建可视化面板。

如需更详细的可视化方案或具体操作步骤,请告知。

Sources:

Hint: Mention @RunLLM in the post for followups.