Vllm中，deepseek的模型刷新kvcache的地方在哪

yangshanjun · February 28, 2026, 8:36am

vllm中，deepseek的模型刷新kvcache的地方在哪

RunLLM · February 28, 2026, 8:36am

在vLLM中，Deepseek模型的KV cache（键值缓存）刷新主要由KV cache管理器负责。KV cache的分配和释放通常发生在推理过程中，例如在生成新token或处理新请求时，相关代码位于模型的forward方法和attention实现中。以DeepseekV2/DeepseekV3为例，KV cache的初始化和管理逻辑在DeepseekV32IndexerCache等类的构造函数和相关方法中实现，具体见vllm.model_executor.models.deepseek_v2和源码实现。

KV cache的释放（即“刷新”）通常在推理引擎的调度器中进行，例如在请求结束或缓存空间不足时，相关逻辑可参考KV cache block管理机制和KV cache释放代码。KV cache不会每次请求都完全清空，而是按需分配和回收以提升性能。

需要更详细的源码分析或具体调用流程吗？

Sources:

Hint: Mention @RunLLM in the post for followups.

yangshanjun · March 5, 2026, 9:25am

@RunLLM chunk size 切的越小，ttft的时间会越差吗

RunLLM · March 5, 2026, 9:25am

Chunk size 越小，TTFT（Time To First Token）通常会略高，因为prefill被分成更多小块，每块有额外的调度和内存开销；但小chunk有利于降低inter-token latency（ITL），提升解码响应速度。大chunk则TTFT更低，但可能拖慢ITL。最佳chunk size需在TTFT和ITL之间权衡，推荐在大模型和大GPU上设置较大（如8192或更高）以优化吞吐。详见官方优化文档。

需要更详细的原理分析或调优建议吗？

Sources:

Performance Tuning with Chunked Prefill

Hint: Mention @RunLLM in the post for followups.

yangshanjun · March 5, 2026, 9:26am

@RunLLM pp 并行，chunk size 一般会切成多少

RunLLM · March 5, 2026, 9:26am

chunk size 越小，TTFT（首token延迟）通常会变差，因为prefill阶段被分成更多小块，每块都需调度和内存访问，带来额外开销；但小chunk有利于降低ITL（token间延迟）。pp（pipeline parallel）并行下，chunk size 推荐根据硬件和模型规模动态调整，常见设置为2048~8192，大模型/大GPU可设更高（如16384），以平衡TTFT和吞吐。详见官方优化建议。

是否需要详细的调优原理或实际案例说明？

Sources:

Performance Tuning with Chunked Prefill

Hint: Mention @RunLLM in the post for followups.

yangshanjun · March 9, 2026, 8:58am

@RunLLM 如何进行vllm 的单元测试

RunLLM · March 9, 2026, 8:58am

vLLM 的单元测试使用 pytest 运行，命令为 pytest tests/。你可以只测试某个文件，例如 pytest -s -v tests/test_logger.py。官方文档说明和社区答复均推荐使用 pytest。

需要更详细的测试用例编写或测试环境配置说明吗？

Sources:

Hint: Mention @RunLLM in the post for followups.

yangshanjun · March 10, 2026, 3:19am

@RunLLM Reqid: chatcmpl-9843d786c874b9a9-b6618c40, Total tokens 146, LMCache hit tokens: 0, need to load: -128 (vllm_v1_adapter.py:1286:lmcache.integration.vllm.vllm_v1_adapter)
(APIServer pid=96924) INFO: 127.0.0.1:48472 - “POST /v1/chat/completions HTTP/1.1” 200 OK 这个打印正常吗

RunLLM · March 10, 2026, 3:20am

该日志中“need to load: -128”不正常，正常情况下“need to load”应为0或正数，表示需要从LMCache加载的token数。出现负数通常是调度或缓存命中逻辑有误，建议检查LMCache和vLLM的版本兼容性或相关实现。详见官方LMCache适配器源码。

需要进一步排查负数原因的详细分析吗？

Sources:

lmcache_integration/vllm_v1_adapter.py

Hint: Mention @RunLLM in the post for followups.

yangshanjun · March 11, 2026, 5:46am

@RunLLM tp2pp4， rank6 没有走到 execute_model 里面，可能是什么原因

RunLLM · March 11, 2026, 5:47am

在tp=2, pp=4的分布式配置下，如果rank6没有进入execute_model，常见原因包括：进程间通信/调度异常、rank映射或初始化出错、部分worker未正确分配任务或死锁。建议检查分布式环境变量、rank分配、NCCL/Ray等通信初始化日志，并确认所有worker均已成功启动。相关案例和调试建议见官方issue。

需要详细的排查步骤或日志分析方法吗？

Sources:

github issue 30128

Hint: Mention @RunLLM in the post for followups.

yangshanjun · March 11, 2026, 5:57am

@RunLLM Executor负责把请求broadcast到各个workers上，这个广播的代码在哪里

RunLLM · March 11, 2026, 5:57am

Executor将请求广播到各个worker的核心代码在MessageQueue和broadcast相关实现中。以OmniDiffusion为例，调度器通过self.mq.enqueue(requests)实现广播，代码位于vllm_omni/diffusion/scheduler.py和官方设计文档。对于主线vLLM，分布式executor会调用如broadcast_tensor_dict等方法，具体见vllm.distributed.communication_op。

需要更详细的源码路径或调用链说明吗？

Sources:

Hint: Mention @RunLLM in the post for followups.

yangshanjun · March 11, 2026, 6:00am

@RunLLM

def step(self) -> tuple\[dict\[int, EngineCoreOutputs\], bool\]:

    """Schedule, execute, and make output.



    Returns tuple of outputs and a flag indicating whether the model

    was executed.

    """

    if envs.VLLM_ZERO_OVERHEAD:

        return engine_core_step(self)



    \# Check for any requests remaining in the scheduler - unfinished,

    \# or finished and not yet removed from the batch.

    if not self.scheduler.has_requests():

        return {}, False

    scheduler_output = self.scheduler.schedule()

    model_output = self.execute_model(scheduler_output)

    engine_core_outputs = self.scheduler.update_from_output(

        scheduler_output, model_output)  # type: ignore

    return (engine_core_outputs,

            scheduler_output.total_num_scheduled_tokens > 0)

这里的 execute_model，会广播给所有worker 进程吗

RunLLM · March 11, 2026, 6:01am

是的，这里的execute_model(scheduler_output)会将模型执行请求广播给所有worker进程。具体实现中，Executor会通过如collective_rpc、broadcast_tensor_dict等机制，将scheduler_output分发到所有worker，确保每个worker都能参与模型推理。相关源码说明。

需要详细的分布式广播流程或底层通信机制说明吗？

Sources:

Hint: Mention @RunLLM in the post for followups.

yangshanjun · March 11, 2026, 9:28am

@RunLLM

vllm pp 并行，最后一个rank 执行的时候卡住，可能是什么原因

RunLLM · March 11, 2026, 9:28am

vLLM在pipeline parallel（pp）并行时，最后一个rank执行卡住，常见原因包括：进程间通信异常（如NCCL死锁）、部分rank提前退出或OOM、分布式环境变量配置不一致、NUMA跨节点通信瓶颈等。建议检查NCCL日志、各rank启动和分配情况，并确认CUDA/NCCL版本兼容。相关案例和调试建议见官方issue。

需要详细的排查步骤或日志分析方法吗？

Sources:

github issue 26631

Hint: Mention @RunLLM in the post for followups.

yangshanjun · March 11, 2026, 9:33am

@RunLLM

CUDA_LAUNCH_BLOCKING 这个环境变量是干什么的

RunLLM · March 11, 2026, 9:33am

CUDA_LAUNCH_BLOCKING=1 环境变量用于让CUDA每次kernel调用都同步执行，强制CPU等待GPU操作完成后再继续。这有助于定位CUDA错误的具体位置，便于调试和排查问题。详见官方调试文档。

需要更详细的原理说明或使用场景吗？

Sources:

Hint: Mention @RunLLM in the post for followups.

Topic		Replies	Views
什么情况下，一个请求会被重复schedule? General	58	124	January 6, 2026
Why is it so slow to build a odeVLLM from source using Docker? General	39	112	January 17, 2026
Understanding vllm kv cache KV-Cache	5	905	December 1, 2025
Skip_leading_tokens 是什么意思 General	41	62	February 13, 2026
Support for (sparse) key value caching KV-Cache	16	528	May 3, 2025

Vllm中，deepseek的模型 刷新kvcache的地方在哪

Related topics

Vllm中，deepseek的模型刷新kvcache的地方在哪