feat: support multi-node DDP + TP + SP parallel training

kilinchange · kilinchange · commit 8e0862f8752b · 2025-11-11T07:27:29.000Z
diff --git a/example/gpt2/main.cc b/example/gpt2/main.cc
@@ -122,14 +122,14 @@ void Train(const nn::parallel::Rank &rank) {
         device = DeviceManager::Instance()->GetDevice(DeviceType::kCUDA, rank.thread_rank());
 
         if (ddp_world_size > 1) {
-            ddp_pg = ProcessGroupFactory::Instance()->GetOrCreate(GetDataParallelProcessGroupName(rank.thread_rank()),
-                                                                  GetDataParallelGroupRanks(rank.thread_rank()));
+            ddp_pg = ProcessGroupFactory::Instance()->GetOrCreate(GetDataParallelProcessGroupName(rank.GlobalRank()),
+                                                                  GetDataParallelGroupRanks(rank.GlobalRank()));
             ddp_rank = ddp_pg->GetGroupRank(rank.thread_rank());
         }
 
         if (tp_world_size > 1) {
-            tp_pg = ProcessGroupFactory::Instance()->GetOrCreate(GetTensorParallelProcessGroupName(rank.thread_rank()),
-                                                                 GetTensorParallelGroupRanks(rank.thread_rank()));
+            tp_pg = ProcessGroupFactory::Instance()->GetOrCreate(GetTensorParallelProcessGroupName(rank.GlobalRank()),
+                                                                 GetTensorParallelGroupRanks(rank.GlobalRank()));
             tp_rank = tp_pg->GetGroupRank(rank.thread_rank());
             // NOTE(zbl): Reserved for VocabParallelEmbedding
             nn::parallel::tp_rank = tp_rank;
@@ -312,7 +312,7 @@ int main(int argc, char *argv[]) {
     if (FLAGS_nthread_per_process > 1) {
         std::vector<std::thread> threads;
         for (int idx = 0; idx < FLAGS_nthread_per_process; ++idx) {
-            nn::parallel::Rank rank(nn::parallel::global::GetLocalProcRank(), idx,
+            nn::parallel::Rank rank(nn::parallel::global::GetGlobalProcRank(), idx,
                                     nn::parallel::global::GetNprocPerNode(), FLAGS_nthread_per_process);
             threads.emplace_back(Train, rank);
         }
diff --git a/example/llama3/main.cc b/example/llama3/main.cc
@@ -105,14 +105,14 @@ void Train(const nn::parallel::Rank &rank) {
         device = DeviceManager::Instance()->GetDevice(DeviceType::kCUDA, rank.thread_rank());
 
         if (ddp_world_size > 1) {
-            ddp_pg = ProcessGroupFactory::Instance()->GetOrCreate(GetDataParallelProcessGroupName(rank.thread_rank()),
-                                                                  GetDataParallelGroupRanks(rank.thread_rank()));
-            ddp_rank = ddp_pg->GetGroupRank(rank.GlobalRank());
+            ddp_pg = ProcessGroupFactory::Instance()->GetOrCreate(GetDataParallelProcessGroupName(rank.GlobalRank()),
+                                                                  GetDataParallelGroupRanks(rank.GlobalRank()));
+            ddp_rank = ddp_pg->GetGroupRank(rank.thread_rank());
         }
 
         if (tp_world_size > 1) {
-            tp_pg = ProcessGroupFactory::Instance()->GetOrCreate(GetTensorParallelProcessGroupName(rank.thread_rank()),
-                                                                 GetTensorParallelGroupRanks(rank.thread_rank()));
+            tp_pg = ProcessGroupFactory::Instance()->GetOrCreate(GetTensorParallelProcessGroupName(rank.GlobalRank()),
+                                                                 GetTensorParallelGroupRanks(rank.GlobalRank()));
             tp_rank = tp_pg->GetGroupRank(rank.thread_rank());
             // NOTE(zbl): Reserved for VocabParallelEmbedding
             nn::parallel::tp_rank = tp_rank;
@@ -292,7 +292,7 @@ int main(int argc, char *argv[]) {
     if (FLAGS_nthread_per_process > 1) {
         std::vector<std::thread> threads;
         for (int idx = 0; idx < FLAGS_nthread_per_process; ++idx) {
-            nn::parallel::Rank rank(nn::parallel::global::GetLocalProcRank(), idx,
+            nn::parallel::Rank rank(nn::parallel::global::GetGlobalProcRank(), idx,
                                     nn::parallel::global::GetNprocPerNode(), FLAGS_nthread_per_process);
             threads.emplace_back(Train, rank);
         }
diff --git a/infini_train/include/nn/parallel/global.h b/infini_train/include/nn/parallel/global.h
@@ -174,8 +174,4 @@ inline std::vector<int> GetGroupRanks(Axis target, int rank) {
  */
 std::string ProcessGroupOverview(const Layout &L = GlobalEnv::Instance().layout(), bool skip_trivial_axes = true);
 
-#ifdef USE_NCCL
-inline ncclUniqueId GetNcclId() { return GlobalEnv::Instance().nccl_id(); }
-#endif
-
 } // namespace infini_train::nn::parallel::global
diff --git a/infini_train/include/nn/parallel/process_group.h b/infini_train/include/nn/parallel/process_group.h
@@ -1,5 +1,6 @@
 #pragma once
 
+#include <condition_variable>
 #include <memory>
 #include <mutex>
 #include <string>
@@ -27,10 +28,7 @@ namespace infini_train::nn::parallel {
 #ifdef USE_NCCL
 class ProcessGroup {
 public:
-    explicit ProcessGroup(const std::vector<int> &device_indices);
-
-    // support for multi-node distributed training
-    explicit ProcessGroup(const ncclUniqueId &nccl_id);
+    explicit ProcessGroup(const std::string &process_group_name, const std::vector<int> &device_indices);
 
     int GetGroupRank(int thread_rank) const;
 
@@ -67,6 +65,8 @@ class ProcessGroup {
     std::unordered_map<int, int> thread_group_rank_map_; // thread_rank : group_rank
 
     int world_size_ = 0;
+
+    const std::string name_ = "";
 };
 #endif
 
@@ -80,10 +80,6 @@ class ProcessGroupFactory {
 
     const ProcessGroup *GetOrCreate(const std::string &name, const std::vector<int> &device_indices);
 
-#ifdef USE_NCCL
-    const ProcessGroup *GetOrCreate(const std::string &name, const ncclUniqueId &nccl_id);
-#endif
-
     const ProcessGroup *Get(const std::string &name) const;
 
     const ProcessGroup *GetDefaultProcessGroup() const;
@@ -93,26 +89,26 @@ class ProcessGroupFactory {
 
     template <typename Creator, typename = std::enable_if_t<std::is_invocable_v<Creator>>>
     const ProcessGroup *GetOrCreate(const std::string &name, Creator &&creator) {
-        {
-            std::lock_guard<std::mutex> lock(mutex_);
-            auto it = name_to_group_.find(name);
-            if (it != name_to_group_.end()) {
-                return it->second.get();
-            }
+        std::unique_lock<std::mutex> lock(mutex_);
+        auto [it, inserted] = name_to_group_.emplace(name, nullptr);
+        if (!inserted) {
+            while (it->second == nullptr) { cond_.wait(lock); }
+            return it->second.get();
         }
 
+        lock.unlock();
         auto new_group = creator();
+        lock.lock();
 
-        {
-            std::lock_guard<std::mutex> lock(mutex_);
-            auto [it, inserted] = name_to_group_.emplace(name, std::move(new_group));
-            return it->second.get();
-        }
+        it->second = std::move(new_group);
+        cond_.notify_all();
+        return it->second.get();
     }
 
 private:
     // TODO(dcj): maybe RWLock later?
     mutable std::mutex mutex_;
+    std::condition_variable cond_;
     std::unordered_map<std::string, std::unique_ptr<ProcessGroup>> name_to_group_;
 };
 } // namespace infini_train::nn::parallel
diff --git a/infini_train/src/device.cc b/infini_train/src/device.cc
@@ -64,7 +64,7 @@ nn::parallel::Rank CudaDevice::rank() const { return rank_; }
 
 CudaDevice::CudaDevice(int8_t index)
     : Device(DeviceType::kCUDA, index),
-      rank_({nn::parallel::global::GetLocalProcRank(), index, nn::parallel::global::GetNprocPerNode(),
+      rank_({nn::parallel::global::GetGlobalProcRank(), index, nn::parallel::global::GetNprocPerNode(),
              nn::parallel::global::GetNthreadPerProc()}) {
     // TODO(dcj): make CudaDevice initialization lazy to avoid allocating memory on all GPUs in single-GPU mode
     SetDevice();
diff --git a/infini_train/src/nn/parallel/distributed_data_parallel.cc b/infini_train/src/nn/parallel/distributed_data_parallel.cc
@@ -23,9 +23,10 @@ DistributedDataParallel::DistributedDataParallel(std::shared_ptr<nn::Module> mod
         CHECK_EQ(device->Index(), device_id) << "All parameters must be on the same device as the module";
 
         auto ddp_pg
-            = ProcessGroupFactory::Instance()->Get(GetDataParallelProcessGroupName(device->rank().thread_rank()));
+            = ProcessGroupFactory::Instance()->Get(GetDataParallelProcessGroupName(device->rank().GlobalRank()));
         // FIXME(dcj): use multi-node ddp_pg here
-        auto hook = std::make_unique<infini_train::autograd::AllReducePostAccumulateHook>(function::ReduceOpType::kAvg);
+        auto hook = std::make_unique<infini_train::autograd::AllReducePostAccumulateHook>(function::ReduceOpType::kAvg,
+                                                                                          ddp_pg);
         param->RegisterPostAccumulateGradHook(std::move(hook));
     }
     for (auto &buffer : module->Buffers()) {
diff --git a/infini_train/src/nn/parallel/global.cc b/infini_train/src/nn/parallel/global.cc
@@ -19,20 +19,6 @@ std::string GetEnvAsStr(const std::string &name, const std::string &default_valu
     return value ? std::string(value) : default_value;
 }
 
-#ifdef USE_NCCL
-ncclUniqueId StringToNcclId(const std::string &str) {
-    ncclUniqueId id;
-    for (int i = 0; i < NCCL_UNIQUE_ID_BYTES; ++i) {
-        unsigned int byte;
-        std::stringstream ss;
-        ss << std::hex << str.substr(i * 2, 2);
-        ss >> byte;
-        id.internal[i] = static_cast<char>(byte);
-    }
-    return id;
-}
-#endif
-
 } // namespace
 
 namespace infini_train::nn::parallel::global {
@@ -125,10 +111,6 @@ void GlobalEnv::Init(int nthread_per_process, int tensor_parallel_size, bool seq
     // FIXME(zbl): set PP size
     layout_.sizes[PP] = 1;
     layout_.InitStrides();
-    // FIXME(dcj): what if no nccl id?
-#ifdef USE_NCCL
-    nccl_id_ = StringToNcclId(GetEnvAsStr("NCCL_UNIQUE_ID", ""));
-#endif
 
     initialized_ = true;
 }
@@ -225,34 +207,6 @@ inline void AppendAxisGroups(std::ostringstream &oss, const Layout &L, Axis targ
     }
 }
 
-/**
- * @brief Generate a human-readable overview of all parallel communication groups.
- *
- * The output is intended for debugging, logging, and runtime verification of
- * distributed parallelism configuration.
- *
- * @param L  The Layout describing DP / TP / PP sizes and axis ordering.
- * @param skip_trivial_axes
- *        If true, axes whose size <= 1(i.e. parallel strategy that is not enabled)
- *        will be marked as "unenabled" and their detailed group listing will be skipped.
- *
- * @return A formatted string containing the full overview of process groups.
- *
- *         Example:
- *           === Parallel Communication Groups ===
- *           world_size = 8, config: {DP=2, TP=4, PP=1}, order: {DP -> TP -> PP}
- *           [DP] size=2, num_groups=4
- *           - DP 0 (dp=-, tp=0, pp=0): [0, 4]
- *           - DP 1 (dp=-, tp=1, pp=0): [1, 5]
- *           - DP 2 (dp=-, tp=2, pp=0): [2, 6]
- *           - DP 3 (dp=-, tp=3, pp=0): [3, 7]
- *
- *           [TP] size=4, num_groups=2
- *           - TP 0 (dp=0, tp=-, pp=0): [0, 1, 2, 3]
- *           - TP 1 (dp=1, tp=-, pp=0): [4, 5, 6, 7]
- *
- *           [PP] size=1, unenabled
- */
 std::string ProcessGroupOverview(const Layout &L, bool skip_trivial_axes) {
     std::ostringstream oss;
     oss << std::format("\n=== Parallel Communication Groups ===\n"
@@ -276,11 +230,5 @@ std::string ProcessGroupOverview(const Layout &L, bool skip_trivial_axes) {
     oss << "\n";
     return oss.str();
 }
-#ifdef USE_NCCL
-ncclUniqueId GlobalEnv::nccl_id() const {
-    CHECK(initialized_) << "GlobalEnv is not initialized!";
-    return nccl_id_;
-}
-#endif
 
 } // namespace infini_train::nn::parallel::global
diff --git a/infini_train/src/nn/parallel/process_group.cc b/infini_train/src/nn/parallel/process_group.cc
diff --git a/infini_train/src/nn/parallel/tensor_parallel.cc b/infini_train/src/nn/parallel/tensor_parallel.cc