你看到的“Prefix cache hit rate: 41.1%”就是vLLM前缀缓存(prefix caching)命中率,表示最近1k次KV-cache块查询中有41.1%直接命中缓存,能跳过重复计算。命中率越高,说明prefix caching效果越好,推理TTFT和吞吐量提升越明显。官方文档说明
一般来说,命中率高(如>50%)代表大量请求共享前缀,缓存利用充分;命中率低则说明请求前缀差异大或缓存空间不足。你可以通过调整业务场景、缓存参数等提升命中率。如需进一步分析或Prometheus监控方法,请告知。
Sources: