feat: Separate ProcessGroup initialization for single-node multi-thread and multi-node multi-process scenarios

kilinchange · kilinchange · commit 424596b74fcb · 2025-11-11T10:32:25.000Z
diff --git a/infini_train/include/nn/parallel/global.h b/infini_train/include/nn/parallel/global.h
@@ -4,10 +4,6 @@
 #include <string>
 #include <vector>
 
-#ifdef USE_NCCL
-#include <nccl.h>
-#endif
-
 namespace infini_train::nn::parallel::global {
 
 enum Axis : uint8_t { DP = 0, TP = 1, PP = 2, AXIS_COUNT = 3 };
@@ -32,14 +28,16 @@ class GlobalEnv {
 
     void Init(int threads_per_process, int tensor_parallel_size, bool sequence_parallel_enabled = false);
 
+    int nnodes() const;
+
+    int nproc_per_node() const;
+
     int world_size() const;
 
     int global_proc_rank() const;
 
     int local_proc_rank() const;
 
-    int nproc_per_node() const;
-
     int nthread_per_process() const;
 
     int tensor_parallel_size() const;
@@ -61,9 +59,11 @@ class GlobalEnv {
     GlobalEnv &operator=(const GlobalEnv &) = delete;
 
 private:
-    int world_size_ = 1;
+    int nnodes_ = 1;
     int nproc_per_node_ = 1;
     int nthread_per_process_ = 1;
+    int world_size_ = 1;
+
     int global_proc_rank_ = 0;
     int local_proc_rank_ = 0;
 
@@ -72,10 +72,6 @@ class GlobalEnv {
 
     int data_parallel_size_ = 1;
 
-#ifdef USE_NCCL
-    ncclUniqueId nccl_id_;
-#endif
-
     mutable std::mutex mutex_;
     bool initialized_ = false;
 
@@ -86,6 +82,7 @@ inline void InitAllEnv(int nthread_per_process, int tensor_parallel_size, bool s
     GlobalEnv::Instance().Init(nthread_per_process, tensor_parallel_size, sequence_parallel_enabled);
 }
 
+inline int GetNnodes() { return GlobalEnv::Instance().nnodes(); }
 inline int GetWorldSize() { return GlobalEnv::Instance().world_size(); }
 inline int GetNprocPerNode() { return GlobalEnv::Instance().nproc_per_node(); }
 inline int GetNthreadPerProc() { return GlobalEnv::Instance().nthread_per_process(); }
diff --git a/infini_train/include/nn/parallel/process_group.h b/infini_train/include/nn/parallel/process_group.h
@@ -55,7 +55,9 @@ class ProcessGroup {
     std::vector<std::shared_ptr<Tensor>> NcclRecv(std::vector<std::shared_ptr<Tensor>> tensors, int src_rank) const;
 
 private:
-    void Init(const std::vector<int> &device_indices);
+    void InitSingleProcess(const std::vector<int> &ranks);
+
+    void InitMultiProcess(const std::vector<int> &ranks);
 
 private:
     std::vector<ncclComm_t> comms_;
diff --git a/infini_train/src/nn/parallel/global.cc b/infini_train/src/nn/parallel/global.cc
@@ -95,8 +95,9 @@ void GlobalEnv::Init(int nthread_per_process, int tensor_parallel_size, bool seq
 
     CHECK(!initialized_) << "Repeated initialization of GlobalEnv!";
 
-    world_size_ = GetEnvAsInt("PROC_WORLD_SIZE", 1) * nthread_per_process;
+    nnodes_ = GetEnvAsInt("NNODES", 1);
     nproc_per_node_ = GetEnvAsInt("NPROC_PER_NODE", 1);
+    world_size_ = GetEnvAsInt("PROC_WORLD_SIZE", 1) * nthread_per_process;
     global_proc_rank_ = GetEnvAsInt("GLOBAL_PROC_RANK", 0);
     local_proc_rank_ = GetEnvAsInt("LOCAL_PROC_RANK", 0);
 
@@ -115,29 +116,34 @@ void GlobalEnv::Init(int nthread_per_process, int tensor_parallel_size, bool seq
     initialized_ = true;
 }
 
-int GlobalEnv::world_size() const {
+int GlobalEnv::nnodes() const {
     CHECK(initialized_) << "GlobalEnv is not initialized!";
-    return world_size_;
+    return nnodes_;
 }
 
-int GlobalEnv::global_proc_rank() const {
+int GlobalEnv::nproc_per_node() const {
     CHECK(initialized_) << "GlobalEnv is not initialized!";
-    return global_proc_rank_;
+    return nproc_per_node_;
 }
 
-int GlobalEnv::local_proc_rank() const {
+int GlobalEnv::nthread_per_process() const {
     CHECK(initialized_) << "GlobalEnv is not initialized!";
-    return local_proc_rank_;
+    return nthread_per_process_;
 }
 
-int GlobalEnv::nproc_per_node() const {
+int GlobalEnv::world_size() const {
     CHECK(initialized_) << "GlobalEnv is not initialized!";
-    return nproc_per_node_;
+    return world_size_;
 }
 
-int GlobalEnv::nthread_per_process() const {
+int GlobalEnv::global_proc_rank() const {
     CHECK(initialized_) << "GlobalEnv is not initialized!";
-    return nthread_per_process_;
+    return global_proc_rank_;
+}
+
+int GlobalEnv::local_proc_rank() const {
+    CHECK(initialized_) << "GlobalEnv is not initialized!";
+    return local_proc_rank_;
 }
 
 int GlobalEnv::tensor_parallel_size() const {
diff --git a/infini_train/src/nn/parallel/process_group.cc b/infini_train/src/nn/parallel/process_group.cc
@@ -79,6 +79,26 @@ namespace infini_train::nn::parallel {
 #ifdef USE_NCCL
 ProcessGroup::ProcessGroup(const std::string &process_group_name, const std::vector<int> &ranks)
     : world_size_(ranks.size()), name_(process_group_name) {
+    if (global::GetNnodes() == 1 && global::GetNprocPerNode() == 1) {
+        InitSingleProcess(ranks);
+    } else {
+        InitMultiProcess(ranks);
+    }
+}
+
+void ProcessGroup::InitSingleProcess(const std::vector<int> &ranks) {
+    comms_.resize(world_size_);
+    NCCL_CHECK(ncclCommInitAll(comms_.data(), world_size_, ranks.data()));
+
+    for (int i = 0; i < ranks.size(); ++i) {
+        auto device = DeviceManager::Instance()->GetDevice(DeviceType::kCUDA, ranks[i]);
+        devices_.push_back(device);
+        device_comm_map_[device] = comms_[i];
+        thread_group_rank_map_[device->rank().thread_rank()] = i;
+    }
+}
+
+void ProcessGroup::InitMultiProcess(const std::vector<int> &ranks) {
     int n_threads = global::GetNthreadPerProc();
 
     ncclUniqueId nccl_id;
@@ -99,28 +119,19 @@ ProcessGroup::ProcessGroup(const std::string &process_group_name, const std::vec
         auto it = std::ranges::find(ranks, global_rank);
         if (it != ranks.end()) {
             cudaSetDevice(i);
+
             ncclComm_t comm;
             int group_rank = std::distance(ranks.begin(), it);
             NCCL_CHECK(ncclCommInitRank(&comm, world_size_, nccl_id, group_rank));
             comms_.push_back(comm);
-            device_indices.push_back(i);
-            // FIXME(dcj): fix Init function
-            thread_group_rank_map_[DeviceManager::Instance()->GetDevice(DeviceType::kCUDA, i)->rank().thread_rank()]
-                = group_rank;
+
+            auto device = DeviceManager::Instance()->GetDevice(DeviceType::kCUDA, i);
+            thread_group_rank_map_[device->rank().thread_rank()] = group_rank;
+            devices_.push_back(device);
+            device_comm_map_[device] = comm;
         }
     }
     NCCL_CHECK(ncclGroupEnd());
-
-    Init(device_indices);
-}
-
-void ProcessGroup::Init(const std::vector<int> &device_indices) {
-    for (int i = 0; i < device_indices.size(); ++i) {
-        auto device = DeviceManager::Instance()->GetDevice(DeviceType::kCUDA, device_indices[i]);
-        devices_.push_back(device);
-        device_comm_map_[device] = comms_[i];
-        // thread_group_rank_map_[device->rank().thread_rank()] = i;
-    }
 }
 
 int ProcessGroup::GetGroupRank(int thread_rank) const { return thread_group_rank_map_.at(thread_rank); }
diff --git a/tools/infini_run/CMakeLists.txt b/tools/infini_run/CMakeLists.txt
@@ -1,5 +1,2 @@
 add_executable(infini_run infini_run.cc)
 target_link_libraries(infini_run PRIVATE gflags glog)
-if (USE_NCCL)
-    target_link_libraries(infini_run PRIVATE nccl)
-endif()
diff --git a/tools/infini_run/infini_run.cc b/tools/infini_run/infini_run.cc
@@ -7,10 +7,6 @@
 #include <unistd.h>
 #include <vector>
 
-#ifdef USE_NCCL
-#include <nccl.h>
-#endif
-
 #include "gflags/gflags.h"
 #include "glog/logging.h"
 
@@ -52,13 +48,17 @@ int main(int argc, char **argv) {
         pid_t pid = fork();
         if (pid == 0) {
             int global_proc_rank = FLAGS_node_rank * FLAGS_nproc_per_node + local_proc_rank;
-            setenv("GLOBAL_PROC_RANK", std::to_string(global_proc_rank).c_str(), 1);
-            setenv("LOCAL_PROC_RANK", std::to_string(local_proc_rank).c_str(), 1);
-            setenv("PROC_WORLD_SIZE", std::to_string(world_size).c_str(), 1);
+            setenv("NNODES", std::to_string(FLAGS_nnodes).c_str(), 1);
             setenv("NPROC_PER_NODE", std::to_string(FLAGS_nproc_per_node).c_str(), 1);
+
             setenv("MASTER_ADDR", master_addr.c_str(), 1);
             setenv("MASTER_PORT", master_port.c_str(), 1);
 
+            setenv("GLOBAL_PROC_RANK", std::to_string(global_proc_rank).c_str(), 1);
+            setenv("LOCAL_PROC_RANK", std::to_string(local_proc_rank).c_str(), 1);
+
+            setenv("PROC_WORLD_SIZE", std::to_string(world_size).c_str(), 1);
+
             execvp(train_program.c_str(), train_argv.data());
             perror("exec failed");
             exit(1);
@@ -70,11 +70,9 @@ int main(int argc, char **argv) {
         wait(&status);
     }
 
-#ifdef USE_NCCL
     if (FLAGS_node_rank == 0) {
         CleanupNcclIdFiles();
     }
-#endif
 
     return 0;
 }