Pp8并行，update_from_output 会等所有rank的 model_executor.execute_model 执行完了之后才会执行吗

RunLLM · December 29, 2025, 9:34am

这段代码的作用是在pipeline parallel（PP）并行场景下，将最后一个PP rank计算得到的logits，通过broadcast_tensor_dict广播给所有PP组内的rank，实现logits的同步。这样可以保证所有PP stage都能拿到最终的logits用于后续处理。官方API文档有详细说明。

需要更详细的执行流程或通信机制解释吗？

Sources:

https://docs.vllm.ai/en/latest/api/vllm/v1/worker/gpu_model_runner/#__span-0-3128

Hint: Mention @RunLLM in the post for followups.

yangshanjun · December 29, 2025, 9:35am

@RunLLM 为什么前面的rank 需要最终的logits ？

RunLLM · December 29, 2025, 9:35am

前面的rank需要最终的logits，是因为在pipeline parallel（PP）模式下，只有最后一个rank能完整计算出logits，但整个推理流程（如调度、输出收集、后处理等）通常在所有rank上都需要用到logits结果。因此，必须通过广播将最终logits同步给所有PP组内的rank，保证各rank状态一致，便于后续统一处理和调度。官方API文档说明。

需要详细举例说明哪些场景下前面rank会用到logits吗？

Sources:

Hint: Mention @RunLLM in the post for followups.

yangshanjun · December 29, 2025, 9:50am

@RunLLM def flash_attn_varlen_func(

q,

k,

v,

cu_seqlens_q,

cu_seqlens_k,

max_seqlen_q,

max_seqlen_k,

dropout_p=0.0,

softmax_scale=None,

causal=False,

window_size=(-1, -1),  # -1 means infinite context window

softcap=0.0, # 0.0 means deactivated

alibi_slopes=None,

deterministic=False,

return_attn_probs=False,

block_table=None,

) 如何对入参进行一下校验

RunLLM · December 29, 2025, 9:50am

flash_attn_varlen_func的参数校验主要包括：q、k、v需为3维张量，且shape一致；cu_seqlens_q、cu_seqlens_k的最后一个元素需等于q.shape[0]、k.shape[0]；q.dtype需为bfloat16或float16；window_size需为长度为2的元组；block_table不为None时，seqused_k也必须提供。源码校验逻辑详见和 IPEX实现。

需要详细列出每个参数的断言代码示例吗？

Sources:

Hint: Mention @RunLLM in the post for followups.

yangshanjun · December 29, 2025, 12:23pm

@RunLLM 只要在代码里加了一个打印，或者多流同步，该问题就没有了，帮忙分析一下可能是什么原因？

RunLLM · December 29, 2025, 12:24pm

只要在代码里加了一个打印或多流同步，问题就消失，通常说明这是一个典型的并发/异步race condition或未初始化的bug。打印或同步操作会改变执行时序，使原本的竞态条件不再触发，从而“掩盖”了问题。相关社区讨论也指出，race condition常因异步操作未正确同步、状态未及时更新等导致。

需要详细分析race condition的常见触发链路和调试建议吗？

Sources:

Hint: Mention @RunLLM in the post for followups.

yangshanjun · December 29, 2025, 12:40pm

@RunLLM # When sequence parallelism is enabled, the “residual” tensor is sharded

    \# across tensor parallel ranks, so each rank only needs its own slice.

    if sync_self:

        assert intermediate_tensors is not None

        for k, v in intermediate_tensors.items():

            is_scattered = "residual" and is_residual_scattered

            copy_len = num_tokens // tp if is_scattered else \\

                num_tokens

            self.intermediate_tensors\[k\]\[:copy_len\].copy\_(

                v\[:copy_len\], non_blocking=True)



    return IntermediateTensors({

        k:

        v\[:num_tokens // tp\]

        if k == "residual" and is_residual_scattered else v\[:num_tokens\]

        for k, v in self.intermediate_tensors.items()

    })  这个有没有引入竞争，有没有可能intermediate_tensors拷贝好，就下一次推理开始了

RunLLM · December 29, 2025, 12:41pm

根据源码和文档，这段代码在sequence parallelism（SP）+ tensor parallelism（TP）下，确实存在潜在的竞态风险：
如果self.intermediate_tensors和intermediate_tensors在多线程/多流环境下被异步访问，可能出现还未完全copy好，下一次推理就开始读写，导致数据不一致或未初始化（race condition）。源码实现和API文档都未加锁或同步，需确保外部调度串行或加同步机制，否则确实有可能出现你说的“copy还没好，下次推理就开始”的问题。

需要详细说明如何加同步或规避竞态吗？

Sources:

Hint: Mention @RunLLM in the post for followups.

yangshanjun · December 29, 2025, 12:48pm

@RunLLM 该问题只有在cudagraph模式下会出，eager模式没有，帮忙分析一下可能是什么原因

RunLLM · December 29, 2025, 12:48pm

这种问题只在CUDA Graph模式下出现、eager模式下没有，通常是因为CUDA Graph捕获和重放时，所有操作（包括数据copy、同步等）都被“固化”在graph里，导致异步操作或状态未及时同步，出现race condition或数据未初始化。而eager模式每次都是即时调度、即时执行，天然规避了这类时序问题。官方设计文档明确指出，CUDA Graph模式对时序和状态同步要求更高，容易暴露并发/异步bug。

需要详细举例说明graph模式下常见的race condition触发链路吗？

Sources:

Hint: Mention @RunLLM in the post for followups.

yangshanjun · December 30, 2025, 8:33am

@RunLLM tp2pp4精度正常，pp8精度异常，如何排查

RunLLM · December 30, 2025, 8:33am

我的理解是，tp2pp4精度正常但pp8精度异常，建议首先排查pp8下各rank的batch分配、max_seqlen、KV cache同步等是否一致，重点关注CUDA Graph捕获时的元数据（如max_seqlen_q）是否和实际推理严格对齐。可以尝试切换到eager模式或加log打印，观察各rank输入输出是否有差异。相关排查经验和官方设计文档有详细说明。

需要更详细的排查步骤或常见异常原因分析吗？

Sources:

https://github.com/vllm-project/vllm/issues/28270

Hint: Mention @RunLLM in the post for followups.

yangshanjun · January 7, 2026, 7:27am

@RunLLM propose_draft_token_ids 这个函数的作用是？

RunLLM · January 7, 2026, 7:28am

propose_draft_token_ids 的作用是在推理时，根据当前采样的token，调用drafter（如NgramProposer、EagleProposer等）为每个请求生成一组“草稿”token（draft tokens），用于后续speculative decoding的验证和加速。API文档说明。

需要详细说明各类drafter的draft token生成逻辑吗？

Sources:

https://docs.vllm.ai/en/latest/api/vllm/v1/worker/gpu_model_runner/#vllm.v1.worker.gpu_model_runner.GPUModelRunner.propose_draft_token_ids

Hint: Mention @RunLLM in the post for followups.

yangshanjun · January 7, 2026, 7:28am

@RunLLM EagleProposer 和 NgramProposer 都是什么，区别是？

RunLLM · January 7, 2026, 7:29am

EagleProposer 和 NgramProposer 都是 vLLM 中用于 speculative decoding 的 drafter。NgramProposer 基于 n-gram 匹配，无需额外模型，直接在 prompt 中查找重复片段生成 draft tokens；EagleProposer 则基于专门训练的 EAGLE draft 模型，能在更一般场景下生成高质量 draft tokens，但需要加载和推理 draft 模型。官方API文档有详细说明。

需要详细对比两者的适用场景和性能差异吗？

Sources:

官方API文档

Hint: Mention @RunLLM in the post for followups.

yangshanjun · January 7, 2026, 7:57am

@RunLLM _make_cached_request_data 里的 new_token_ids 是什么含义

RunLLM · January 7, 2026, 7:57am

_make_cached_request_data 里的 new_token_ids 表示本轮调度中每个请求新分配（新生成或新调度）的token id 列表，即本次推理阶段新计算出来、需要缓存的token。源码注释明确指出，new_token_ids 只包含本轮新调度的token，不包括历史已缓存的token。

需要详细举例说明 new_token_ids 的生成和使用场景吗？

Sources:

https://docs.vllm.ai/en/latest/api/vllm/v1/core/sched/scheduler/#__code_53

Hint: Mention @RunLLM in the post for followups.

yangshanjun · January 7, 2026, 8:18am

@RunLLM propose_draft_token_ids 这个接口是？

Topic		Replies	Views
什么情况下，一个请求会被重复schedule? General	58	111	January 6, 2026
VLLM V1 Scheduler: Inconsistent Request Scheduling Under Token Budget Limit General	25	275	December 17, 2025
Skip_leading_tokens 是什么意思 General	41	59	February 13, 2026
Why is it so slow to build a odeVLLM from source using Docker? General	39	93	January 17, 2026
一个长输入的请求，切chunk ，比如切了4份，prefill的时候，这四个可以同时做prefill 吗，还是有依赖关系的 General	15	79	January 21, 2026

Pp8并行，update_from_output 会等所有rank的 model_executor.execute_model 执行完了之后才会执行吗

Related topics