Pp8并行,update_from_output 会等所有rank的 model_executor.execute_model 执行完了之后才会执行吗

是的,self.rejection_sampler 的输出 output_token_ids 会包含speculative decoding生成的spec token(即draft tokens),这些token还未经过采样验收(accept/reject)流程。API文档说明明确,rejection_sampler的输入是spec decode的draft tokens,输出是包含所有spec token和bonus token的token id序列,后续还需进一步处理验收。

需要详细说明采样验收流程和token状态转移吗?

Sources:

Hint: Mention @RunLLM in the post for followups.