[Comm] Fix_NPU_Comm (#71723) (#71742)

Xing-lil · web-flow · commit 34a136eb9941 · 2025-03-19T09:31:39.000+08:00
diff --git a/paddle/common/macros.h b/paddle/common/macros.h
@@ -30,6 +30,8 @@ limitations under the License. */
 #define COMM_CONTEXT phi::distributed::NCCLCommContext
 #elif (defined(PADDLE_WITH_XPU) && defined(PADDLE_WITH_XPU_BKCL))
 #define COMM_CONTEXT phi::distributed::BKCLCommContext
+#elif defined(PADDLE_WITH_CUSTOM_DEVICE)
+#define COMM_CONTEXT phi::distributed::XCCLCommContext
 #endif
 
 #if defined(PADDLE_WITH_NCCL) || defined(PADDLE_WITH_RCCL)
@@ -38,6 +40,9 @@ limitations under the License. */
 #elif defined(PADDLE_WITH_XPU_BKCL)
 #define CREATE_COMM_CONTEXT \
   phi::distributed::CommContextManager::CreateBKCLCommContext
+#elif defined(PADDLE_WITH_CUSTOM_DEVICE)
+#define CREATE_COMM_CONTEXT \
+  phi::distributed::CommContextManager::CreateXCCLCommContext
 #endif
 
 namespace common {
diff --git a/paddle/phi/api/generator/api_gen.py b/paddle/phi/api/generator/api_gen.py
@@ -526,6 +526,9 @@ def source_include(header_file_path):
 #elif (defined(PADDLE_WITH_XPU) && defined(PADDLE_WITH_XPU_BKCL))
 #include "paddle/phi/core/distributed/comm_context_manager.h"
 #include "paddle/phi/core/distributed/bkcl_comm_context.h"
+#elif PADDLE_WITH_CUSTOM_DEVICE
+#include "paddle/phi/core/distributed/comm_context_manager.h"
+#include "paddle/phi/core/distributed/xccl_comm_context.h"
 #endif
 
 #ifdef PADDLE_WITH_DISTRIBUTE
diff --git a/paddle/phi/api/generator/dist_api_gen.py b/paddle/phi/api/generator/dist_api_gen.py
@@ -90,11 +90,17 @@
     auto store = phi::distributed::CreateOrGetGlobalTCPStore();
     CREATE_COMM_CONTEXT(store, std::to_string(ring_id), rank, nranks);
   }}
+#elif defined(PADDLE_WITH_CUSTOM_DEVICE)
+  const auto & comm_context_manager_ = phi::distributed::CommContextManager::GetInstance();
+  if (nranks > 1 && !comm_context_manager_.Has(std::to_string(ring_id))) {{
+    auto store = phi::distributed::CreateOrGetGlobalTCPStore();
+    CREATE_COMM_CONTEXT(store, std::to_string(ring_id), phi::distributed::GetDefaultPlace(), rank, nranks);
+  }}
 #endif
 """
 
 SET_NCCL_COMMCONTEXT = """
-#if defined(PADDLE_WITH_NCCL) || defined(PADDLE_WITH_RCCL) || defined(PADDLE_WITH_XPU_BKCL)
+#if defined(PADDLE_WITH_NCCL) || defined(PADDLE_WITH_RCCL) || defined(PADDLE_WITH_XPU_BKCL) || defined(PADDLE_WITH_CUSTOM_DEVICE)
   const auto & comm_context_manager = phi::distributed::CommContextManager::GetInstance();
   COMM_CONTEXT* comm_context = nullptr;
   if (comm_context_manager.Has(std::to_string(ring_id))) {{
@@ -107,8 +113,19 @@
             "NCCLCommContext is nullptr, collective op should "
             "has ring_id(%d) attr.",
             std::to_string(ring_id)));
-    if (!comm_context->GetDevContext() || !comm_context->GetDevContext()->GetCommContext())
-    {{
+    #if defined(PADDLE_WITH_NCCL) || defined(PADDLE_WITH_RCCL) || defined(PADDLE_WITH_XPU_BKCL)
+        if (!comm_context->GetDevContext() || !comm_context->GetDevContext()->GetCommContext())
+        {{
+            auto kernel_res = phi::KernelFactory::Instance().SelectKernelOrThrowError(
+            "{}", {{kernel_backend, kernel_layout, kernel_data_type}}, true);
+            if (FLAGS_low_precision_op_list) {{
+            phi::KernelFactory::Instance().AddToLowPrecisionKernelList("{}", kernel_data_type);
+            }}
+            Backend act_kernel_backend = kernel_res.has_fallback_cpu ? Backend::CPU : kernel_backend;
+            auto* dev_context = GetDeviceContextByBackend(act_kernel_backend);
+            dev_context->SetCommContext(comm_context);
+        }}
+    #elif defined(PADDLE_WITH_CUSTOM_DEVICE)
         auto kernel_res = phi::KernelFactory::Instance().SelectKernelOrThrowError(
             "{}", {{kernel_backend, kernel_layout, kernel_data_type}}, true);
         if (FLAGS_low_precision_op_list) {{
@@ -117,7 +134,7 @@
         Backend act_kernel_backend = kernel_res.has_fallback_cpu ? Backend::CPU : kernel_backend;
         auto* dev_context = GetDeviceContextByBackend(act_kernel_backend);
         dev_context->SetCommContext(comm_context);
-    }}
+    #endif
   }}
 #endif
 """
@@ -1384,7 +1401,9 @@ def generate_nccl_commcontext_init_code(self) -> str:
         return NCCL_COMMCONTEXT_INIT.format(self.kernel['func'][0])
 
     def generate_set_nccl_commcontext_code(self) -> str:
-        return SET_NCCL_COMMCONTEXT.format(self.kernel['func'][0], self.api)
+        return SET_NCCL_COMMCONTEXT.format(
+            self.kernel['func'][0], self.api, self.kernel['func'][0], self.api
+        )
 
     def generate_reshard_input_code(self) -> str:
         input_reshard_code = ""
diff --git a/paddle/phi/api/generator/dist_bw_api_gen.py b/paddle/phi/api/generator/dist_bw_api_gen.py
@@ -523,6 +523,9 @@ def source_include(header_file_path, fw_header_file_path):
 #elif defined(PADDLE_WITH_XPU_BKCL)
 #include "paddle/phi/core/distributed/comm_context_manager.h"
 #include "paddle/phi/core/distributed/bkcl_comm_context.h"
+#elif defined(PADDLE_WITH_CUSTOM_DEVICE)
+#include "paddle/phi/core/distributed/comm_context_manager.h"
+#include "paddle/phi/core/distributed/xccl_comm_context.h"
 #endif
 
 #ifdef PADDLE_WITH_DISTRIBUTE
diff --git a/paddle/phi/kernels/custom/c_softmax_with_entropy_kernel.cc b/paddle/phi/kernels/custom/c_softmax_with_entropy_kernel.cc
@@ -30,119 +30,126 @@ void CSoftmaxWithEntropyKernel(const Context& dev_ctx,
                                const DenseTensor& logits_in,
                                const DenseTensor& label_in,
                                int64_t ignore_index,
-                               int ring_id,
                                int rank,
                                int nranks,
                                DenseTensor* softmax,
                                DenseTensor* loss) {
-  const int rid = ring_id;
-  auto map = distributed::ProcessGroupMapFromGid::getInstance();
-  if (map->has(rid)) {
-    const phi::DenseTensor* logits = &logits_in;
-    const phi::DenseTensor* labels = &label_in;
-    auto softmax_dims = softmax->dims();
-    auto loss_dims = loss->dims();
-
-    const int rid = ring_id;
-
-    distributed::ProcessGroup* pg = map->get(rid);
-    distributed::AllreduceOptions opts;
-
-    // allocate memory on device.
-    const auto& logits_dims = logits->dims();
-
-    const int axis = logits_dims.size() - 1;
-    const int N = phi::funcs::SizeToAxis(axis, logits_dims);
-    const int D = phi::funcs::SizeFromAxis(axis, logits_dims);
-
-    auto logits_2d = std::make_shared<phi::DenseTensor>();
-    auto labels_1d = std::make_shared<phi::DenseTensor>();
-    logits_2d->ShareDataWith(*logits).Resize({N, D});
-    labels_1d->ShareDataWith(*labels).Resize({N});
-    paddle::Tensor logits_2d_tensor(logits_2d), labels_1d_tensor(labels_1d);
-
-    // step 1, obtain logit_max
-    auto logits_2d_max_tensor = logits_2d_tensor.max({1}, true);
-    std::vector<phi::DenseTensor> in_out;
-    in_out.push_back(*reinterpret_cast<phi::DenseTensor*>(
-        logits_2d_max_tensor.impl().get()));
-    opts.reduce_op = distributed::ReduceOp::MAX;
-    pg->AllReduce(in_out, in_out, opts)->Synchronize();
-
-    // step 2, obtain logit - logit_max
-    auto logits_2d_sub_max = paddle::experimental::clip(
-        logits_2d_tensor - logits_2d_max_tensor, -64., 0.);
-
-    // step 3, obtain predict target
-    const int start_index = rank * D;
-    auto start_index_tensor =
-        paddle::experimental::full_like(labels_1d_tensor,
-                                        start_index,
-                                        labels_1d_tensor.dtype(),
-                                        labels_1d_tensor.place());
-    auto end_index_tensor =
-        paddle::experimental::full_like(labels_1d_tensor,
-                                        start_index + D,
-                                        labels_1d_tensor.dtype(),
-                                        labels_1d_tensor.place());
-    auto labels_1d_mask = paddle::experimental::logical_and(
-        labels_1d_tensor.greater_equal(start_index_tensor),
-        labels_1d_tensor.less_than(end_index_tensor));
-    auto real_label_tensor = (labels_1d_tensor - start_index_tensor)
-                                 .multiply(paddle::experimental::cast(
-                                     labels_1d_mask, labels_1d_tensor.dtype()));
-
-    auto predicted_logits_tensor =
-        logits_2d_sub_max
-            .multiply(paddle::experimental::cast(
-                paddle::experimental::one_hot(real_label_tensor, D),
-                logits_2d_sub_max.dtype()))
-            .sum({1}, logits_2d_sub_max.dtype(), false)
-            .multiply(paddle::experimental::cast(labels_1d_mask,
-                                                 logits_2d_sub_max.dtype()));
-
-    in_out.clear();
-    in_out.push_back(*reinterpret_cast<phi::DenseTensor*>(
-        predicted_logits_tensor.impl().get()));
-    opts.reduce_op = distributed::ReduceOp::SUM;
-    pg->AllReduce(in_out, in_out, opts)->Synchronize();
-
-    // step 4, obtain exp(logit)
-    auto softmax_2d_tensor = logits_2d_sub_max.exp();
-
-    // step 5, obtain sum_exp_logits
-    auto sum_exp_logits_tensor =
-        softmax_2d_tensor.sum({1}, softmax_2d_tensor.dtype(), false);
-
-    in_out.clear();
-    in_out.push_back(*reinterpret_cast<phi::DenseTensor*>(
-        sum_exp_logits_tensor.impl().get()));
-    opts.reduce_op = distributed::ReduceOp::SUM;
-    pg->AllReduce(in_out, in_out, opts)->Synchronize();
-
-    auto softmax_out = softmax_2d_tensor.divide(
-        paddle::experimental::reshape(sum_exp_logits_tensor, {N, 1}));
-    auto labels_1d_not_equal_ignore = labels_1d_tensor.not_equal(
-        paddle::experimental::full_like(labels_1d_tensor,
-                                        ignore_index,
-                                        labels_1d_tensor.dtype(),
-                                        labels_1d_tensor.place()));
-    auto loss_out =
-        (sum_exp_logits_tensor.log() - predicted_logits_tensor)
-            .multiply(paddle::experimental::cast(
-                labels_1d_not_equal_ignore, sum_exp_logits_tensor.dtype()));
-    softmax
-        ->ShareDataWith(
-            *reinterpret_cast<phi::DenseTensor*>(softmax_out.impl().get()))
-        .Resize(softmax_dims);
-    loss->ShareDataWith(
-            *reinterpret_cast<phi::DenseTensor*>(loss_out.impl().get()))
-        .Resize(loss_dims);
-  } else {
-    PADDLE_THROW(
-        common::errors::Unavailable("CustomDevice c_softmax_with_cross_entropy "
-                                    "only support ProcessGroup"));
-  }
+  auto comm = reinterpret_cast<phi::distributed::XCCLCommContext*>(
+      dev_ctx.GetCommContext());
+  PADDLE_ENFORCE_NE(comm,
+                    nullptr,
+                    common::errors::Unavailable(
+                        "XCCLCommContext is nullptr, collective op should "
+                        "has ring_id attr."));
+
+  const phi::DenseTensor* logits = &logits_in;
+  const phi::DenseTensor* labels = &label_in;
+  auto softmax_dims = softmax->dims();
+  auto loss_dims = loss->dims();
+
+  const int axis = logits->dims().size() - 1;
+  const int N = phi::funcs::SizeToAxis(axis, logits->dims());
+  const int D = phi::funcs::SizeFromAxis(axis, logits->dims());
+
+  auto logits_2d = std::make_shared<phi::DenseTensor>();
+  auto labels_1d = std::make_shared<phi::DenseTensor>();
+  logits_2d->ShareDataWith(*logits).Resize({N, D});
+  labels_1d->ShareDataWith(*labels).Resize({N});
+  paddle::Tensor logits_2d_tensor(logits_2d), labels_1d_tensor(labels_1d);
+
+  // step 1, obtain logit_max
+  auto logits_2d_max_tensor = logits_2d_tensor.max({1}, true);
+  auto logits_2d_max =
+      reinterpret_cast<phi::DenseTensor*>(logits_2d_max_tensor.impl().get());
+  auto& stream = *dev_ctx.GetStream();
+  phi::DeviceManager::CCLAllReduce(dev_ctx.GetPlace().GetDeviceType(),
+                                   logits_2d_max->data<float>(),
+                                   logits_2d_max->data<float>(),
+                                   logits_2d_max->numel(),
+                                   logits_2d_max->dtype(),
+                                   phi::ccl::CCLReduceOp::MAX,
+                                   comm->GetXcclComm(),
+                                   stream);
+
+  // step 2, obtain logit - logit_max
+  auto logits_2d_sub_max = paddle::experimental::clip(
+      logits_2d_tensor - logits_2d_max_tensor, -64., 0.);
+
+  // step 3, obtain predict target
+  const int start_index = rank * D;
+  auto start_index_tensor =
+      paddle::experimental::full_like(labels_1d_tensor,
+                                      start_index,
+                                      labels_1d_tensor.dtype(),
+                                      labels_1d_tensor.place());
+  auto end_index_tensor =
+      paddle::experimental::full_like(labels_1d_tensor,
+                                      start_index + D,
+                                      labels_1d_tensor.dtype(),
+                                      labels_1d_tensor.place());
+  auto labels_1d_mask = paddle::experimental::logical_and(
+      labels_1d_tensor.greater_equal(start_index_tensor),
+      labels_1d_tensor.less_than(end_index_tensor));
+  auto real_label_tensor = (labels_1d_tensor - start_index_tensor)
+                               .multiply(paddle::experimental::cast(
+                                   labels_1d_mask, labels_1d_tensor.dtype()));
+
+  auto predicted_logits_tensor =
+      logits_2d_sub_max
+          .multiply(paddle::experimental::cast(
+              paddle::experimental::one_hot(real_label_tensor, D),
+              logits_2d_sub_max.dtype()))
+          .sum({1}, logits_2d_sub_max.dtype(), false)
+          .multiply(paddle::experimental::cast(labels_1d_mask,
+                                               logits_2d_sub_max.dtype()));
+
+  auto predicted_logits =
+      reinterpret_cast<phi::DenseTensor*>(predicted_logits_tensor.impl().get());
+  phi::DeviceManager::CCLAllReduce(dev_ctx.GetPlace().GetDeviceType(),
+                                   predicted_logits->data<float>(),
+                                   predicted_logits->data<float>(),
+                                   predicted_logits->numel(),
+                                   predicted_logits->dtype(),
+                                   phi::ccl::CCLReduceOp::SUM,
+                                   comm->GetXcclComm(),
+                                   stream);
+
+  // step 4, obtain exp(logit)
+  auto softmax_2d_tensor = logits_2d_sub_max.exp();
+
+  // step 5, obtain sum_exp_logits
+  auto sum_exp_logits_tensor =
+      softmax_2d_tensor.sum({1}, softmax_2d_tensor.dtype(), false);
+
+  auto sum_exp_logits =
+      reinterpret_cast<phi::DenseTensor*>(sum_exp_logits_tensor.impl().get());
+  phi::DeviceManager::CCLAllReduce(dev_ctx.GetPlace().GetDeviceType(),
+                                   sum_exp_logits->data<float>(),
+                                   sum_exp_logits->data<float>(),
+                                   sum_exp_logits->numel(),
+                                   sum_exp_logits->dtype(),
+                                   phi::ccl::CCLReduceOp::SUM,
+                                   comm->GetXcclComm(),
+                                   stream);
+
+  auto softmax_out = softmax_2d_tensor.divide(
+      paddle::experimental::reshape(sum_exp_logits_tensor, {N, 1}));
+  auto labels_1d_not_equal_ignore = labels_1d_tensor.not_equal(
+      paddle::experimental::full_like(labels_1d_tensor,
+                                      ignore_index,
+                                      labels_1d_tensor.dtype(),
+                                      labels_1d_tensor.place()));
+  auto loss_out =
+      (sum_exp_logits_tensor.log() - predicted_logits_tensor)
+          .multiply(paddle::experimental::cast(labels_1d_not_equal_ignore,
+                                               sum_exp_logits_tensor.dtype()));
+  softmax
+      ->ShareDataWith(
+          *reinterpret_cast<phi::DenseTensor*>(softmax_out.impl().get()))
+      .Resize(softmax_dims);
+  loss->ShareDataWith(
+          *reinterpret_cast<phi::DenseTensor*>(loss_out.impl().get()))
+      .Resize(loss_dims);
 }
 }  // namespace phi