Skip_leading_tokens 是什么意思

yangshanjun · January 31, 2026, 11:55am

LMCache INFO: Storing KV cache for 8 out of 32 tokens (skip_leading_tokens=24)，这个代表什么含义

RunLLM · January 31, 2026, 11:55am

这条日志“LMCache INFO: Storing KV cache for 8 out of 32 tokens (skip_leading_tokens=24)”表示：当前请求共有32个token，但前24个token被跳过（即不存储），只对后8个token的KV cache进行存储。通常这是因为前24个token的KV cache已存在或无需重复存储，只需保存新计算的部分即可。
详细机制见save_kv_layer源码与注释：skip_leading_tokens参数用于跳过已缓存的前缀，仅存储未缓存的新token的KV cache。

需要更详细的解释吗？

Sources:

https://docs.vllm.ai/en/latest/api/vllm/distributed/kv_transfer/kv_connector/v1/lmcache_integration/vllm_v1_adapter/#vllm.distributed.kv_transfer.kv_connector.v1.lmcache_integration.vllm_v1_adapter.LMCacheConnectorV1Impl.save_kv_layer

Hint: Mention @RunLLM in the post for followups.

yangshanjun · February 3, 2026, 3:46am

@RunLLM vllm-flash-attn_SOURCE_DIR 这个是什么目录

RunLLM · February 3, 2026, 3:46am

vllm-flash-attn_SOURCE_DIR 是指 vLLM 构建过程中用于存放 vllm-flash-attn（即 vLLM 定制版 FlashAttention）源码的目录。该目录在 CMake 构建流程中自动下载并配置，用于编译 vllm-flash-attn 动态库，供 vLLM 使用，无需手动指定或管理。
具体可见 vllm-flash-attn 构建配置说明和相关 issue 讨论，源码会被拉取到该目录并参与 vLLM 的整体编译流程。

需要更详细的解释吗？

Sources:

Hint: Mention @RunLLM in the post for followups.

yangshanjun · February 4, 2026, 10:21am

@RunLLM pp并行的情况下，会存在某个rank当前请求还未执行完，就开始下一个请求的情况吗

RunLLM · February 4, 2026, 10:22am

在vLLM的pipeline parallel（PP）并行实现中，默认情况下同一rank不会在上一个请求未完成时就开始下一个请求，通常是等所有PP stage都完成当前batch后才会调度下一个batch。只有在采用异步调度（async scheduler）或特定Ray后端时，才可能实现rank间的流水线并行，即不同rank可同时处理不同请求的不同阶段，但目前主流实现仍以同步为主，rank间不会提前启动新请求。相关讨论和实现细节均有说明。

如需更详细的机制分析或代码层面解释，请告知。

Sources:

Hint: Mention @RunLLM in the post for followups.

yangshanjun · February 4, 2026, 10:23am

@RunLLM 这个在pp上是如何保证的

RunLLM · February 4, 2026, 10:23am

在vLLM的pipeline parallel（PP）中，保证同一rank不会在上一个请求未完成时就开始下一个请求，主要依赖于同步调度机制：每个PP stage（rank）在本轮batch处理完毕、接收到前一stage的输出后，才会处理下一个batch。调度器会统一分发和收集batch，只有所有stage都完成后才进入下一轮，防止rank间乱序或提前执行。实现细节见此。

如果需要更细致的调度流程或代码级解释，请告知。

Sources:

https://github.com/vllm-project/vllm/issues/4461

Hint: Mention @RunLLM in the post for followups.

yangshanjun · February 4, 2026, 12:13pm

@RunLLM 下面这个模型执行是cpu同步的接口吗，还是异步的

            model_output = self.model(input_ids=input_ids,

                positions=positions,

                intermediate_tensors=intermediate_tensors,

                inputs_embeds=inputs_embeds,

            )

yangshanjun · February 4, 2026, 12:26pm

@RunLLM 下面这个模型执行是cpu同步的接口吗，还是异步的，会等gpu执行完吗

model_output = self.model(input_ids=input_ids,

            *positions=positions,*

            *intermediate_tensors=intermediate_tensors,*

            *inputs_embeds=inputs_embeds,*

        *)*

RunLLM · February 4, 2026, 12:26pm

该接口本身（即self.model(...)）是同步的，会阻塞当前CPU线程直到GPU上的前向推理执行完成，返回结果后才继续后续代码。官方文档说明明确指出该方法为同步调用，需等待GPU推理结束。

需要更详细的原理或代码流程说明吗？

Sources:

Hint: Mention @RunLLM in the post for followups.

yangshanjun · February 4, 2026, 12:32pm

@RunLLM 在哪里说明的是同步调用的，代码中有说明吗

RunLLM · February 4, 2026, 12:33pm

在vLLM源码中，self.model(...)（即模型的前向推理）是同步调用。虽然代码中没有显式注释“同步”，但其调用流程为：CPU发起调用后会阻塞，直到GPU前向推理完成并返回结果。你可以在源码实现的_model_forward和execute_model等函数中看到，self.model(...)直接返回推理结果，后续代码依赖其输出，未使用异步/回调/多线程等异步机制。

如需进一步验证，可查阅PyTorch的nn.Module.__call__和forward方法，均为同步执行，vLLM未对其做异步封装。

需要更详细的代码行号或流程分析吗？

Sources:

https://github.com/vllm-project/vllm/blob/main/vllm/v1/worker/gpu_model_runner.py

Hint: Mention @RunLLM in the post for followups.

yangshanjun · February 4, 2026, 12:59pm

@RunLLM cpu是如何等gpu的推理结果的

RunLLM · February 4, 2026, 12:59pm

CPU等待GPU推理结果的方式是：当调用self.model(...)（即PyTorch模型的前向推理）时，CPU线程会阻塞，直到GPU上的计算全部完成并返回结果。PyTorch的同步机制保证了CPU不会提前继续执行后续代码，只有等GPU推理结束后才会继续。相关源码中，模型前向调用未使用异步或回调，属于典型的同步阻塞模式。

需要更详细的底层原理或PyTorch同步机制说明吗？

Sources:

https://github.com/vllm-project/vllm/blob/main/vllm/v1/worker/gpu_model_runner.py

Hint: Mention @RunLLM in the post for followups.

yangshanjun · February 4, 2026, 1:04pm

@RunLLM 我说的是 vllm gpu_model_runner 当中，调用 self.model 接口，是同步还是异步的，如果是同步的，cpu 是在哪里同步等待的

RunLLM · February 4, 2026, 1:04pm

在 vLLM 的 gpu_model_runner 中，调用 self.model(...) 是同步的。CPU 会在调用该接口时阻塞，直到 GPU 推理完成并返回结果，具体同步点就是 self.model(...) 这一行，CPU 会等待该函数返回后才继续执行后续代码。源码实现中未使用异步机制或回调，直接返回推理结果。

如需更详细的代码流程或同步原理说明，请告知。

Sources:

https://github.com/vllm-project/vllm/blob/main/vllm/v1/worker/gpu_model_runner.py

Hint: Mention @RunLLM in the post for followups.

yangshanjun · February 5, 2026, 8:08am

@RunLLM self.model(…) 应该是异步的吧, cpu应该先返回了吧

RunLLM · February 5, 2026, 8:08am

不是，self.model(...) 在 vLLM 的 gpu_model_runner 中是同步的，CPU 会阻塞在这一行，直到 GPU 推理完成并返回结果，之后才会继续执行后续代码。vLLM 没有对该调用做异步封装，直接依赖 PyTorch 的同步机制。源码也未见异步实现。

需要更详细的原理或代码分析吗？

Sources:

https://github.com/vllm-project/vllm/blob/main/vllm/v1/worker/gpu_model_runner.py

Hint: Mention @RunLLM in the post for followups.

yangshanjun · February 8, 2026, 10:11am

@RunLLM 那 step_with_batch_queue 是怎么一次下发多个请求的，应该是异步的吧

Topic		Replies	Views
Vllm中，deepseek的模型刷新kvcache的地方在哪 General	44	119	March 30, 2026
什么情况下，一个请求会被重复schedule? General	58	126	January 6, 2026
Pp8并行，update_from_output 会等所有rank的 model_executor.execute_model 执行完了之后才会执行吗 General	84	318	January 8, 2026
VLLM V1 Scheduler: Inconsistent Request Scheduling Under Token Budget Limit General	25	290	December 17, 2025
Why is it so slow to build a odeVLLM from source using Docker? General	39	114	January 17, 2026

Skip_leading_tokens 是什么意思

Related topics