tmp

kilinchange · kilinchange · commit 78a5f68ca75c · 2025-11-10T09:35:12.000Z
diff --git a/example/gpt2/main.cc b/example/gpt2/main.cc
@@ -122,14 +122,14 @@ void Train(const nn::parallel::Rank &rank) {
         device = DeviceManager::Instance()->GetDevice(DeviceType::kCUDA, rank.thread_rank());
 
         if (ddp_world_size > 1) {
-            ddp_pg = ProcessGroupFactory::Instance()->GetOrCreate(GetDataParallelProcessGroupName(rank.thread_rank()),
-                                                                  GetDataParallelGroupRanks(rank.thread_rank()));
+            ddp_pg = ProcessGroupFactory::Instance()->GetOrCreate(GetDataParallelProcessGroupName(rank.GlobalRank()),
+                                                                  GetDataParallelGroupRanks(rank.GlobalRank()));
             ddp_rank = ddp_pg->GetGroupRank(rank.thread_rank());
         }
 
         if (tp_world_size > 1) {
-            tp_pg = ProcessGroupFactory::Instance()->GetOrCreate(GetTensorParallelProcessGroupName(rank.thread_rank()),
-                                                                 GetTensorParallelGroupRanks(rank.thread_rank()));
+            tp_pg = ProcessGroupFactory::Instance()->GetOrCreate(GetTensorParallelProcessGroupName(rank.GlobalRank()),
+                                                                 GetTensorParallelGroupRanks(rank.GlobalRank()));
             tp_rank = tp_pg->GetGroupRank(rank.thread_rank());
             // NOTE(zbl): Reserved for VocabParallelEmbedding
             nn::parallel::tp_rank = tp_rank;
@@ -312,7 +312,7 @@ int main(int argc, char *argv[]) {
     if (FLAGS_nthread_per_process > 1) {
         std::vector<std::thread> threads;
         for (int idx = 0; idx < FLAGS_nthread_per_process; ++idx) {
-            nn::parallel::Rank rank(nn::parallel::global::GetLocalProcRank(), idx,
+            nn::parallel::Rank rank(nn::parallel::global::GetGlobalProcRank(), idx,
                                     nn::parallel::global::GetNprocPerNode(), FLAGS_nthread_per_process);
             threads.emplace_back(Train, rank);
         }
diff --git a/example/llama3/main.cc b/example/llama3/main.cc
@@ -105,14 +105,14 @@ void Train(const nn::parallel::Rank &rank) {
         device = DeviceManager::Instance()->GetDevice(DeviceType::kCUDA, rank.thread_rank());
 
         if (ddp_world_size > 1) {
-            ddp_pg = ProcessGroupFactory::Instance()->GetOrCreate(GetDataParallelProcessGroupName(rank.thread_rank()),
-                                                                  GetDataParallelGroupRanks(rank.thread_rank()));
-            ddp_rank = ddp_pg->GetGroupRank(rank.GlobalRank());
+            ddp_pg = ProcessGroupFactory::Instance()->GetOrCreate(GetDataParallelProcessGroupName(rank.GlobalRank()),
+                                                                  GetDataParallelGroupRanks(rank.GlobalRank()));
+            ddp_rank = ddp_pg->GetGroupRank(rank.thread_rank());
         }
 
         if (tp_world_size > 1) {
-            tp_pg = ProcessGroupFactory::Instance()->GetOrCreate(GetTensorParallelProcessGroupName(rank.thread_rank()),
-                                                                 GetTensorParallelGroupRanks(rank.thread_rank()));
+            tp_pg = ProcessGroupFactory::Instance()->GetOrCreate(GetTensorParallelProcessGroupName(rank.GlobalRank()),
+                                                                 GetTensorParallelGroupRanks(rank.GlobalRank()));
             tp_rank = tp_pg->GetGroupRank(rank.thread_rank());
             // NOTE(zbl): Reserved for VocabParallelEmbedding
             nn::parallel::tp_rank = tp_rank;
@@ -292,7 +292,7 @@ int main(int argc, char *argv[]) {
     if (FLAGS_nthread_per_process > 1) {
         std::vector<std::thread> threads;
         for (int idx = 0; idx < FLAGS_nthread_per_process; ++idx) {
-            nn::parallel::Rank rank(nn::parallel::global::GetLocalProcRank(), idx,
+            nn::parallel::Rank rank(nn::parallel::global::GetGlobalProcRank(), idx,
                                     nn::parallel::global::GetNprocPerNode(), FLAGS_nthread_per_process);
             threads.emplace_back(Train, rank);
         }
diff --git a/infini_train/include/nn/parallel/process_group.h b/infini_train/include/nn/parallel/process_group.h
@@ -1,5 +1,6 @@
 #pragma once
 
+#include <condition_variable>
 #include <memory>
 #include <mutex>
 #include <string>
@@ -11,6 +12,8 @@
 #include <nccl.h>
 #endif
 
+#include "glog/logging.h"
+
 #include "infini_train/include/nn/parallel/reduce_op_type.h"
 
 namespace infini_train {
@@ -27,7 +30,7 @@ namespace infini_train::nn::parallel {
 #ifdef USE_NCCL
 class ProcessGroup {
 public:
-    explicit ProcessGroup(const std::vector<int> &device_indices);
+    explicit ProcessGroup(const std::string &process_group_name, const std::vector<int> &device_indices);
 
     // support for multi-node distributed training
     explicit ProcessGroup(const ncclUniqueId &nccl_id);
@@ -67,6 +70,8 @@ class ProcessGroup {
     std::unordered_map<int, int> thread_group_rank_map_; // thread_rank : group_rank
 
     int world_size_ = 0;
+
+    const std::string name_ = "";
 };
 #endif
 
@@ -93,26 +98,26 @@ class ProcessGroupFactory {
 
     template <typename Creator, typename = std::enable_if_t<std::is_invocable_v<Creator>>>
     const ProcessGroup *GetOrCreate(const std::string &name, Creator &&creator) {
-        {
-            std::lock_guard<std::mutex> lock(mutex_);
-            auto it = name_to_group_.find(name);
-            if (it != name_to_group_.end()) {
-                return it->second.get();
-            }
+        std::unique_lock<std::mutex> lock(mutex_);
+        auto [it, inserted] = name_to_group_.emplace(name, nullptr);
+        if (!inserted) {
+            while (it->second == nullptr) { cond_.wait(lock); }
+            return it->second.get();
         }
 
+        lock.unlock();
         auto new_group = creator();
+        lock.lock();
 
-        {
-            std::lock_guard<std::mutex> lock(mutex_);
-            auto [it, inserted] = name_to_group_.emplace(name, std::move(new_group));
-            return it->second.get();
-        }
+        it->second = std::move(new_group);
+        cond_.notify_all();
+        return it->second.get();
     }
 
 private:
     // TODO(dcj): maybe RWLock later?
     mutable std::mutex mutex_;
+    std::condition_variable cond_;
     std::unordered_map<std::string, std::unique_ptr<ProcessGroup>> name_to_group_;
 };
 } // namespace infini_train::nn::parallel
diff --git a/infini_train/src/device.cc b/infini_train/src/device.cc
@@ -64,7 +64,7 @@ nn::parallel::Rank CudaDevice::rank() const { return rank_; }
 
 CudaDevice::CudaDevice(int8_t index)
     : Device(DeviceType::kCUDA, index),
-      rank_({nn::parallel::global::GetLocalProcRank(), index, nn::parallel::global::GetNprocPerNode(),
+      rank_({nn::parallel::global::GetGlobalProcRank(), index, nn::parallel::global::GetNprocPerNode(),
              nn::parallel::global::GetNthreadPerProc()}) {
     // TODO(dcj): make CudaDevice initialization lazy to avoid allocating memory on all GPUs in single-GPU mode
     SetDevice();
diff --git a/infini_train/src/nn/parallel/distributed_data_parallel.cc b/infini_train/src/nn/parallel/distributed_data_parallel.cc
@@ -23,9 +23,10 @@ DistributedDataParallel::DistributedDataParallel(std::shared_ptr<nn::Module> mod
         CHECK_EQ(device->Index(), device_id) << "All parameters must be on the same device as the module";
 
         auto ddp_pg
-            = ProcessGroupFactory::Instance()->Get(GetDataParallelProcessGroupName(device->rank().thread_rank()));
+            = ProcessGroupFactory::Instance()->Get(GetDataParallelProcessGroupName(device->rank().GlobalRank()));
         // FIXME(dcj): use multi-node ddp_pg here
-        auto hook = std::make_unique<infini_train::autograd::AllReducePostAccumulateHook>(function::ReduceOpType::kAvg);
+        auto hook = std::make_unique<infini_train::autograd::AllReducePostAccumulateHook>(function::ReduceOpType::kAvg,
+                                                                                          ddp_pg);
         param->RegisterPostAccumulateGradHook(std::move(hook));
     }
     for (auto &buffer : module->Buffers()) {
diff --git a/infini_train/src/nn/parallel/global.cc b/infini_train/src/nn/parallel/global.cc
@@ -19,19 +19,19 @@ std::string GetEnvAsStr(const std::string &name, const std::string &default_valu
     return value ? std::string(value) : default_value;
 }
 
-#ifdef USE_NCCL
-ncclUniqueId StringToNcclId(const std::string &str) {
-    ncclUniqueId id;
-    for (int i = 0; i < NCCL_UNIQUE_ID_BYTES; ++i) {
-        unsigned int byte;
-        std::stringstream ss;
-        ss << std::hex << str.substr(i * 2, 2);
-        ss >> byte;
-        id.internal[i] = static_cast<char>(byte);
-    }
-    return id;
-}
-#endif
+// #ifdef USE_NCCL
+// ncclUniqueId StringToNcclId(const std::string &str) {
+//     ncclUniqueId id;
+//     for (int i = 0; i < NCCL_UNIQUE_ID_BYTES; ++i) {
+//         unsigned int byte;
+//         std::stringstream ss;
+//         ss << std::hex << str.substr(i * 2, 2);
+//         ss >> byte;
+//         id.internal[i] = static_cast<char>(byte);
+//     }
+//     return id;
+// }
+// #endif
 
 } // namespace
 
@@ -126,9 +126,9 @@ void GlobalEnv::Init(int nthread_per_process, int tensor_parallel_size, bool seq
     layout_.sizes[PP] = 1;
     layout_.InitStrides();
     // FIXME(dcj): what if no nccl id?
-#ifdef USE_NCCL
-    nccl_id_ = StringToNcclId(GetEnvAsStr("NCCL_UNIQUE_ID", ""));
-#endif
+    // #ifdef USE_NCCL
+    //     nccl_id_ = StringToNcclId(GetEnvAsStr("NCCL_UNIQUE_ID", ""));
+    // #endif
 
     initialized_ = true;
 }
diff --git a/infini_train/src/nn/parallel/process_group.cc b/infini_train/src/nn/parallel/process_group.cc
@@ -1,8 +1,13 @@
 #include "infini_train/include/nn/parallel/process_group.h"
 
 #include <algorithm>
+#include <chrono>
+#include <filesystem>
+#include <fstream>
+#include <iterator>
 #include <memory>
 #include <numeric>
+#include <thread>
 #include <vector>
 
 #ifdef USE_NCCL
@@ -20,28 +25,90 @@
 namespace infini_train {
 
 namespace {
+using nn::parallel::function::ReduceOpType;
+
+#ifdef USE_NCCL
 const std::unordered_map<DataType, ncclDataType_t> kNcclDtypeMap = {
     {DataType::kUINT8, ncclUint8},       {DataType::kINT8, ncclInt8},     {DataType::kUINT32, ncclUint32},
     {DataType::kINT32, ncclInt32},       {DataType::kUINT64, ncclUint64}, {DataType::kINT64, ncclInt64},
     {DataType::kBFLOAT16, ncclBfloat16}, {DataType::kFLOAT16, ncclHalf},  {DataType::kFLOAT32, ncclFloat32},
     {DataType::kFLOAT64, ncclFloat64},
 };
 
-using nn::parallel::function::ReduceOpType;
-
 const std::unordered_map<ReduceOpType, ncclRedOp_t> kNcclReduceOpMap = {
     {ReduceOpType::kSum, ncclSum},
     {ReduceOpType::kProd, ncclProd},
     {ReduceOpType::kMax, ncclMax},
     {ReduceOpType::kAvg, ncclAvg},
 };
+
+void WriteNcclUniqueId(const ncclUniqueId &nccl_id, const std::string &filename) {
+    std::string tmp_path = filename + ".tmp";
+
+    std::ofstream ofs(tmp_path, std::ios::binary);
+    ofs.write(reinterpret_cast<const char *>(&nccl_id), sizeof(nccl_id));
+    ofs.close();
+
+    std::rename(tmp_path.c_str(), filename.c_str());
+}
+
+void ReadNcclUniqueId(ncclUniqueId &nccl_id, const std::string &filename) {
+    std::ifstream ifs(filename, std::ios::binary);
+    ifs.read(reinterpret_cast<char *>(&nccl_id), sizeof(nccl_id));
+    ifs.close();
+}
+#endif
+
 } // namespace
 
 } // namespace infini_train
 
 namespace infini_train::nn::parallel {
 
 #ifdef USE_NCCL
+// NOTE(dcj): This constructor is used only for initializing intra-node (single-machine) ProcessGroup.
+ProcessGroup::ProcessGroup(const std::string &process_group_name, const std::vector<int> &ranks)
+    : world_size_(ranks.size()), name_(process_group_name) {
+    int n_threads = global::GetNthreadPerProc();
+    // NCCL_CHECK(ncclCommInitAll(comms_.data(), world_size_, device_indices.data()));
+    // group-rank 0 create nccl unique id and broadcast to other ranks
+
+    ncclUniqueId nccl_id;
+
+    if (std::ranges::min(ranks) < (global::GetGlobalProcRank() + 1) * global::GetNthreadPerProc()
+        && std::ranges::min(ranks) >= global::GetGlobalProcRank() * global::GetNthreadPerProc()) {
+        ncclGetUniqueId(&nccl_id);
+
+        WriteNcclUniqueId(nccl_id, name_);
+    } else {
+        while (std::filesystem::exists(name_) == false) {
+            std::this_thread::sleep_for(std::chrono::microseconds(1000));
+        }
+        ReadNcclUniqueId(nccl_id, name_);
+    }
+
+    std::vector<int> device_indices;
+    NCCL_CHECK(ncclGroupStart());
+    for (int i = 0; i < n_threads; ++i) {
+        int global_rank = global::GetGlobalProcRank() * global::GetNthreadPerProc() + i;
+        auto it = std::ranges::find(ranks, global_rank);
+        if (it != ranks.end()) {
+            cudaSetDevice(i);
+            ncclComm_t comm;
+            int group_rank = std::distance(ranks.begin(), it);
+            NCCL_CHECK(ncclCommInitRank(&comm, world_size_, nccl_id, group_rank));
+            comms_.push_back(comm);
+            device_indices.push_back(i);
+            // FIXME(dcj): fix Init function
+            thread_group_rank_map_[DeviceManager::Instance()->GetDevice(DeviceType::kCUDA, i)->rank().thread_rank()]
+                = group_rank;
+        }
+    }
+    NCCL_CHECK(ncclGroupEnd());
+
+    Init(device_indices);
+}
+
 ProcessGroup::ProcessGroup(const ncclUniqueId &nccl_id) : world_size_(global::GetWorldSize()) {
     int local_comm_size = global::GetNthreadPerProc();
     comms_.resize(local_comm_size);
@@ -63,12 +130,12 @@ ProcessGroup::ProcessGroup(const ncclUniqueId &nccl_id) : world_size_(global::Ge
 
 void ProcessGroup::Init(const std::vector<int> &device_indices) {
     // FIXME(dcj): This is a temporary solution to get the device and comm for each thread.
-    int local_comm_size = std::min(static_cast<int>(device_indices.size()), global::GetNthreadPerProc());
-    for (int i = 0; i < local_comm_size; ++i) {
+    // int local_comm_size = std::min(static_cast<int>(device_indices.size()), global::GetNthreadPerProc());
+    for (int i = 0; i < device_indices.size(); ++i) {
         auto device = DeviceManager::Instance()->GetDevice(DeviceType::kCUDA, device_indices[i]);
         devices_.push_back(device);
         device_comm_map_[device] = comms_[i];
-        thread_group_rank_map_[device->rank().thread_rank()] = i + global::GetGlobalProcRank() * local_comm_size;
+        // thread_group_rank_map_[device->rank().thread_rank()] = i;
     }
 }
 
@@ -347,11 +414,11 @@ ProcessGroupFactory *ProcessGroupFactory::Instance() {
 const ProcessGroup *ProcessGroupFactory::GetOrCreate(const std::string &name, int comm_size) {
     std::vector<int> device_indices(comm_size);
     std::iota(device_indices.begin(), device_indices.end(), 0);
-    return GetOrCreate(name, [&]() { return std::make_unique<ProcessGroup>(device_indices); });
+    return GetOrCreate(name, [&]() { return std::make_unique<ProcessGroup>(name, device_indices); });
 }
 
 const ProcessGroup *ProcessGroupFactory::GetOrCreate(const std::string &name, const std::vector<int> &device_indices) {
-    return GetOrCreate(name, [&]() { return std::make_unique<ProcessGroup>(device_indices); });
+    return GetOrCreate(name, [&]() { return std::make_unique<ProcessGroup>(name, device_indices); });
 }
 
 #ifdef USE_NCCL
@@ -370,10 +437,10 @@ const ProcessGroup *ProcessGroupFactory::GetDefaultProcessGroup() const {
 }
 
 ProcessGroupFactory::ProcessGroupFactory() {
-#ifdef USE_NCCL
-    GetOrCreate(kDefaltProcessGroupName, global::GetNcclId());
-#else
+    // #ifdef USE_NCCL
+    //     GetOrCreate(kDefaltProcessGroupName, global::GetNcclId());
+    // #else
     GetOrCreate(kDefaltProcessGroupName, global::GetWorldSize());
-#endif
+    // #endif
 }
 } // namespace infini_train::nn::parallel
diff --git a/infini_train/src/nn/parallel/tensor_parallel.cc b/infini_train/src/nn/parallel/tensor_parallel.cc