Add reduction op log (#1843)

Chao1Han · mengfei25 · web-flow · commit 28acdc43a6b1 · 2025-07-15T08:26:55.000Z
**_Reduce op_** 
[rank1]:[I713 19:28:16.889824026 ProcessGroupXCCL.cpp:1130]
collective_name: allreduce, inNelems: 1, outNelems: 1, dType: Long,
root/src rank: 1, worldSize: 4, async_op: true, reduction op: MIN
[rank0]:[I713 19:31:32.562227129 ProcessGroupXCCL.cpp:1315]
collective_name: reduce, inNelems: 0, outNelems: 0, dType: Float,
root/src rank: 0, worldSize: 4, async_op: true, reduction op: SUM
[rank2]:[I713 19:31:32.565373680 ProcessGroupXCCL.cpp:1616]
collective_name: reduce_scatter, inNelems: 0, outNelems: 0, dType:
Float, root/src rank: 2, worldSize: 4, async_op: true, reduction op: SUM

**_Non reduction op_**
[rank0]:[I713 19:32:41.897706337 ProcessGroupXCCL.cpp:743]
collective_name: send, inNelems: 100, outNelems: 100, dType: Float,
root/src rank: 1, worldSize: 4, async_op: N/A, reduction op: N/A

---------

Co-authored-by: mengfei25 &lt;mengfei.li@Intel.com&gt;
diff --git a/src/xccl/ProcessGroupXCCL.cpp b/src/xccl/ProcessGroupXCCL.cpp
@@ -756,7 +756,8 @@ c10::intrusive_ptr<Work> ProcessGroupXCCL::send(
       -1, // globalRankStart
       -1, // globalRankStride
       this->getSize(), // worldSize
-      "N/A"); // async_op
+      "N/A", // async_op
+      "N/A"); // reductionOp
 
   auto ret = pointToPoint(
       tensor,
@@ -806,7 +807,8 @@ c10::intrusive_ptr<Work> ProcessGroupXCCL::recv(
       -1, // globalRankStart
       -1, // globalRankStride
       this->getSize(), // worldSize
-      "N/A"); // async_op
+      "N/A", // async_op
+      "N/A"); // reductionOp
 
   auto ret = pointToPoint(
       tensor,
@@ -892,7 +894,8 @@ c10::intrusive_ptr<Work> ProcessGroupXCCL::gather(
       -1, // globalRankStart
       -1, // globalRankStride
       this->getSize(), // worldSize
-      opts.asyncOp); // async_op
+      opts.asyncOp, // async_op
+      "N/A"); // reductionOp
 
   auto inputs = std::vector<at::Tensor>{inputTensor};
   return collective(
@@ -1007,7 +1010,8 @@ c10::intrusive_ptr<Work> ProcessGroupXCCL::scatter(
       -1, // globalRankStart
       -1, // globalRankStride
       this->getSize(), // worldSize
-      opts.asyncOp); // async_op
+      opts.asyncOp, // async_op
+      "N/A"); // reductionOp
 
   const auto root = opts.rootRank;
 
@@ -1136,7 +1140,8 @@ c10::intrusive_ptr<Work> ProcessGroupXCCL::allreduce(
       -1, // globalRankStart
       -1, // globalRankStride
       size_, // worldSize
-      opts.asyncOp); // async_op
+      opts.asyncOp, // async_op
+      reduceOpToString(opts.reduceOp)); // reductionOp
 
   return allreduce_impl(tensor, "xccl:all_reduce", opts);
 }
@@ -1163,7 +1168,8 @@ c10::intrusive_ptr<Work> ProcessGroupXCCL::allreduce_coalesced(
       -1, // globalRankStart
       -1, // globalRankStride
       this->getSize(), // worldSize
-      opts.asyncOp); // async_op
+      opts.asyncOp, // async_op
+      reduceOpToString(opts.reduceOp)); // reductionOp
 
   return collectiveCoalesced(
       tensors,
@@ -1226,7 +1232,8 @@ c10::intrusive_ptr<Work> ProcessGroupXCCL::broadcast(
       -1, // globalRankStart
       -1, // globalRankStride
       this->getSize(), // worldSize
-      opts.asyncOp); // async_op
+      opts.asyncOp, // async_op
+      "N/A"); // reductionOp
 
   const auto root = opts.rootRank + opts.rootTensor;
 
@@ -1318,7 +1325,8 @@ c10::intrusive_ptr<Work> ProcessGroupXCCL::reduce(
       -1, // globalRankStart
       -1, // globalRankStride
       this->getSize(), // worldSize
-      opts.asyncOp); // async_op
+      opts.asyncOp, // async_op
+      reduceOpToString(opts.reduceOp)); // reductionOp
 
   return collective(
       tensor,
@@ -1428,7 +1436,8 @@ c10::intrusive_ptr<Work> ProcessGroupXCCL::allgather(
       -1, // globalRankStart
       -1, // globalRankStride
       this->getSize(), // worldSize
-      opts.asyncOp); // async_op
+      opts.asyncOp, // async_op
+      "N/A"); // reductionOp
 
   bool same_size = checkSameSize(outputTensors_);
   if (same_size) {
@@ -1516,7 +1525,8 @@ c10::intrusive_ptr<Work> ProcessGroupXCCL::_allgather_base(
       -1, // globalRankStart
       -1, // globalRankStride
       this->getSize(), // worldSize
-      opts.asyncOp); // async_op
+      opts.asyncOp, // async_op
+      "N/A"); // reductionOp
 
   return collective(
       input_tensor,
@@ -1563,7 +1573,8 @@ c10::intrusive_ptr<Work> ProcessGroupXCCL::allgather_into_tensor_coalesced(
       -1, // globalRankStart
       -1, // globalRankStride
       this->getSize(), // worldSize
-      opts.asyncOp); // async_op
+      opts.asyncOp, // async_op
+      "N/A"); // reductionOp
 
   return collectiveCoalesced(
       inputs,
@@ -1615,7 +1626,8 @@ c10::intrusive_ptr<Work> ProcessGroupXCCL::reduce_scatter(
       -1, // globalRankStart
       -1, // globalRankStride
       this->getSize(), // worldSize
-      opts.asyncOp); // async_op
+      opts.asyncOp, // async_op
+      reduceOpToString(opts.reduceOp)); // reductionOp
 
   bool same_size = checkSameSize(inputTensors_);
   if (same_size) {
@@ -1713,7 +1725,8 @@ c10::intrusive_ptr<Work> ProcessGroupXCCL::_reduce_scatter_base(
       -1, // globalRankStart
       -1, // globalRankStride
       this->getSize(), // worldSize
-      opts.asyncOp); // async_op
+      opts.asyncOp, // async_op
+      reduceOpToString(opts.reduceOp)); // reductionOp
 
   return collective(
       inputTensor,
@@ -1771,7 +1784,8 @@ c10::intrusive_ptr<Work> ProcessGroupXCCL::reduce_scatter_tensor_coalesced(
       -1, // globalRankStart
       -1, // globalRankStride
       this->getSize(), // worldSize
-      opts.asyncOp); // async_op
+      opts.asyncOp, // async_op
+      reduceOpToString(opts.reduceOp)); // reductionOp
 
   return collectiveCoalesced(
       inputs,
@@ -1902,7 +1916,8 @@ c10::intrusive_ptr<Work> ProcessGroupXCCL::alltoall_base(
         -1, // globalRankStart
         -1, // globalRankStride
         this->getSize(), // worldSize
-        opts.asyncOp); // async_op
+        opts.asyncOp, // async_op
+        "N/A"); // reductionOp
 
     TORCH_CHECK(
         outputTensor.numel() == inputTensor.numel() &&
@@ -1953,7 +1968,8 @@ c10::intrusive_ptr<Work> ProcessGroupXCCL::alltoall_base(
         -1, // globalRankStart
         -1, // globalRankStride
         this->getSize(), // worldSize
-        opts.asyncOp); // async_op
+        opts.asyncOp, // async_op
+        "N/A"); // reductionOp
 
     return collective(
         inputTensor,
@@ -2030,7 +2046,8 @@ c10::intrusive_ptr<Work> ProcessGroupXCCL::alltoall(
       -1, // globalRankStart
       -1, // globalRankStride
       this->getSize(), // worldSize
-      opts.asyncOp); // async_op
+      opts.asyncOp, // async_op
+      "N/A"); // reductionOp
 
   return collective(
       inputTensors,
diff --git a/src/xccl/ProcessGroupXCCL.hpp b/src/xccl/ProcessGroupXCCL.hpp
@@ -467,42 +467,44 @@ inline std::string reduceOpToString(c10d::ReduceOp op) {
 // Since the current profiler trace support for XCCL is unclear, wrap
 // `RECORD_PARAM_COMMS_DATA` and output parameters as debug logs.
 // export TORCH_CPP_LOG_LEVEL=INFO
-#define RECORD_PARAM_COMMS_DATA_WITH_LOG(                                    \
-    seq,                                                                     \
-    pg_name_tuple,                                                           \
-    inputTensors,                                                            \
-    outputTensors,                                                           \
-    rank,                                                                    \
-    collective_name,                                                         \
-    inNelems,                                                                \
-    outNelems,                                                               \
-    dType,                                                                   \
-    inSplitSizes,                                                            \
-    outSplitSizes,                                                           \
-    globalRankStart,                                                         \
-    globalRankStride,                                                        \
-    worldSize,                                                               \
-    async_op)                                                                \
-  do {                                                                       \
-    LOG(INFO) << std::boolalpha << "collective_name: " << collective_name    \
-              << ", inNelems: " << inNelems << ", outNelems: " << outNelems  \
-              << ", dType: " << dType << ", root/src rank: " << rank         \
-              << ", worldSize: " << worldSize << ", async_op: " << async_op; \
-    RECORD_PARAM_COMMS_DATA(                                                 \
-        seq,                                                                 \
-        pg_name_tuple,                                                       \
-        inputTensors,                                                        \
-        outputTensors,                                                       \
-        rank,                                                                \
-        collective_name,                                                     \
-        inNelems,                                                            \
-        outNelems,                                                           \
-        dType,                                                               \
-        inSplitSizes,                                                        \
-        outSplitSizes,                                                       \
-        globalRankStart,                                                     \
-        globalRankStride,                                                    \
-        worldSize);                                                          \
+#define RECORD_PARAM_COMMS_DATA_WITH_LOG(                                   \
+    seq,                                                                    \
+    pg_name_tuple,                                                          \
+    inputTensors,                                                           \
+    outputTensors,                                                          \
+    rank,                                                                   \
+    collective_name,                                                        \
+    inNelems,                                                               \
+    outNelems,                                                              \
+    dType,                                                                  \
+    inSplitSizes,                                                           \
+    outSplitSizes,                                                          \
+    globalRankStart,                                                        \
+    globalRankStride,                                                       \
+    worldSize,                                                              \
+    async_op,                                                               \
+    reduce_op)                                                              \
+  do {                                                                      \
+    LOG(INFO) << std::boolalpha << "collective_name: " << collective_name   \
+              << ", inNelems: " << inNelems << ", outNelems: " << outNelems \
+              << ", dType: " << dType << ", root/src rank: " << rank        \
+              << ", worldSize: " << worldSize << ", async_op: " << async_op \
+              << ", reduction op: " << reduce_op;                           \
+    RECORD_PARAM_COMMS_DATA(                                                \
+        seq,                                                                \
+        pg_name_tuple,                                                      \
+        inputTensors,                                                       \
+        outputTensors,                                                      \
+        rank,                                                               \
+        collective_name,                                                    \
+        inNelems,                                                           \
+        outNelems,                                                          \
+        dType,                                                              \
+        inSplitSizes,                                                       \
+        outSplitSizes,                                                      \
+        globalRankStart,                                                    \
+        globalRankStride,                                                   \
+        worldSize);                                                         \
   } while (0)
 } // namespace
 #endif // USE_C10D_XCCL