Why does quickReduce not need to use system-scope release write operations to update flags?

sandstorm666 · August 13, 2025, 4:22pm

_quickreduce_device_inline_ void set_sync_flag(uint32_t* flag_ptr,

                                             uint32_t flag) {

__atomic_store_n(flag_ptr, flag, __ATOMIC_RELEASE);

}

_quickreduce_device_inline_ void wait_sync_flag(uint32_t* flag_ptr,

                                              uint32_t flag) {

while (__atomic_load_n(flag_ptr, __ATOMIC_RELAXED) != flag) {

}

for (int r = 0; r < kWorldSize; r++) {

  int32x4_t\* send_buffer =

      reinterpret_cast<int32x4_t\*>(buffer_list\[r\] + comm_data0_offset +

                                   rank \* Codec::kRankTransmittedTileSize);

  codec.send(send_buffer, &tA\[r \* Codec::kRankAtoms\]);

}



\__syncthreads();

if (thread < kWorldSize) {

  int r = thread;

  uint32_t\* flag_ptr = reinterpret_cast<uint32_t\*>(

      buffer_list\[r\] + comm_flags0_offset + rank \* sizeof(uint32_t));

  set_sync_flag(flag_ptr, flag_color);// device scope release

}

// --------------------------------------------------------

// Phase-1B: Reduce the segment data from the communication buffers.

int32x4_t tR\[Codec::kRankAtoms\] = {};

{

  // Read the data from the communication buffer.

  int32x4_t\* recv_buffer =

      reinterpret_cast<int32x4_t\*>(rank_buffer + comm_data0_offset);

  uint32_t\* flag_ptr =

      reinterpret_cast<uint32_t\*>(rank_buffer + comm_flags0_offset);



  for (int r = 0; r < kWorldSize; r++) {

    // Wait for the flags to be set.

    if (thread == 0) {

      wait_sync_flag(&flag_ptr\[r\], flag_color);//device scope relaxed

    }

    \__syncthreads();



    // note: we reuse tA as temp buffer here

    codec.recv(&recv_buffer, tA);



    for (int i = 0; i < Codec::kRankAtoms; i++) {

      packed_assign_add<T>(&tR\[i\], &tA\[i\]);

    }

  }

}

Topic		Replies	Views
How to understand custom_all_reduce stage2's comment General	1	9	August 8, 2025
怎么理解custom_all_reduce stage2的跨设备内存可见性注释 General	5	36	August 9, 2025
DP并行时在set_forward_context中做all_reduce作用是什么 General	17	93	May 30, 2025
Something weired about the reading procedure of q_vecs in page attention kernel KV-Cache	3	11	June 9, 2025
Custom communication operators General	1	15	August 6, 2025

Why does quickReduce not need to use system-scope release write operations to update flags?

Related topics