save initial changes

brb-nv · brb-nv · commit 5fda479b722d · 2025-12-30T20:45:26.000Z
diff --git a/tensorrt_llm/_torch/device_mesh.py b/tensorrt_llm/_torch/device_mesh.py
@@ -118,15 +118,17 @@ def build_mesh(self):
                 "DeviceMesh creation requested but torch.distributed process group "
                 "has not been initialised.")
 
-        dims = ["cp", "pp"]
-        shape = [self.cp_size, self.pp_size]
+        # Dimensions go from slowest-varying (outermost) to fastest-varying (innermost)
+        # Layout: pp is outermost, then tp, then cp is innermost (consecutive)
+        dims = ["pp", "tp"]
+        shape = [self.pp_size, self.tp_size]
 
         if self.moe_ep_size > 1:
             dims += ["moe_tp", "moe_ep"]
             shape += [self.moe_tp_size, self.moe_ep_size]
         else:
-            dims += ["tp"]
-            shape += [self.tp_size]
+            dims += ["cp"]
+            shape += [self.cp_size]
 
         cls.device_mesh = init_device_mesh(
             "cuda",
diff --git a/tensorrt_llm/mapping.py b/tensorrt_llm/mapping.py
@@ -292,18 +292,16 @@ def has_cp(self):
         return self.cp_size > 1
 
     def prev_cp_rank(self):
-        p = self.rank - self.tp_size
-        if p // (self.tp_size * self.cp_size) < self.rank // (self.tp_size *
-                                                              self.cp_size):
-            return p + self.tp_size * self.cp_size
-        return p
+        # cp ranks are consecutive, so prev is rank - 1 with wraparound within cp group
+        if self.cp_rank == 0:
+            return self.rank + self.cp_size - 1
+        return self.rank - 1
 
     def next_cp_rank(self):
-        p = self.rank + self.tp_size
-        if p // (self.tp_size * self.cp_size) > self.rank // (self.tp_size *
-                                                              self.cp_size):
-            return p - self.tp_size * self.cp_size
-        return p
+        # cp ranks are consecutive, so next is rank + 1 with wraparound within cp group
+        if self.cp_rank == self.cp_size - 1:
+            return self.rank - self.cp_size + 1
+        return self.rank + 1
 
     def has_moe_cluster(self):
         return self.moe_cluster_size > 1
@@ -378,17 +376,17 @@ class Mapping(MappingBase):
 
     A node with 8 GPUs, tp_size = 4, cp_size = 2, pp_size = 1
 
-    2 tp groups:
+    4 cp groups:
 
-    - [0, 1, 2, 3]
-    - [4, 5, 6, 7]
+    - [0, 1]
+    - [2, 3]
+    - [4, 5]
+    - [6, 7]
 
-    4 cp groups:
+    2 tp groups:
 
-    - [0, 4]
-    - [1, 5]
-    - [2, 6]
-    - [3, 7]
+    - [0, 2, 4, 6]
+    - [1, 3, 5, 7]
 
     A node with 8 GPUs, moe_tp_size = 2, moe_ep_size = 4
 
@@ -437,23 +435,23 @@ class Mapping(MappingBase):
 
     2 nodes with 8 GPUs, tp_size 2, pp_size 2, cp_size 2
 
-    4 tp groups:
+    4 cp groups:
     - [0, 1]
     - [2, 3]
     - [4, 5]
     - [6, 7]
 
+    4 tp groups:
+    - [0, 2]
+    - [1, 3]
+    - [4, 6]
+    - [5, 7]
+
     4 pp groups:
     - [0, 4]
     - [1, 5]
     - [2, 6]
     - [3, 7]
-
-    4 cp groups:
-    - [0, 2]
-    - [1, 3]
-    - [4, 6]
-    - [5, 7]
     """
 
     def __new__(cls, *args, **kwargs):
@@ -551,23 +549,23 @@ def __init__(self, *args, **kwargs):
 
     @property
     def tp_rank(self) -> int:
-        return self.rank % self.tp_size
+        return self.rank % (self.tp_size * self.cp_size) // self.cp_size
 
     @property
     def pp_rank(self) -> int:
         return self.rank // (self.tp_size * self.cp_size)
 
     @property
     def cp_rank(self) -> int:
-        return self.rank % (self.tp_size * self.cp_size) // self.tp_size
+        return self.rank % self.cp_size
 
     @property
     def tp_group(self) -> List[int]:
         return self.tp_groups[self.pp_rank * self.cp_size + self.cp_rank]
 
     @property
     def pp_group(self) -> List[int]:
-        return self.pp_groups[self.cp_rank * self.tp_size + self.tp_rank]
+        return self.pp_groups[self.tp_rank * self.cp_size + self.cp_rank]
 
     @property
     def cp_group(self) -> List[int]:
@@ -598,20 +596,20 @@ def _init_parallel_groups(self):
             ranks = range(i, self.world_size, self.tp_size * self.cp_size)
             self.pp_groups.append(list(ranks))
 
-        # init cp group
+        # init cp group (consecutive ranks within each tp slice)
         for i in range(self.pp_size):
             for j in range(self.tp_size):
-                ranks = range(i * self.tp_size * self.cp_size + j,
-                              (i + 1) * self.tp_size * self.cp_size + j,
-                              self.tp_size)
+                ranks = range(
+                    i * self.tp_size * self.cp_size + j * self.cp_size,
+                    i * self.tp_size * self.cp_size + (j + 1) * self.cp_size)
                 self.cp_groups.append(list(ranks))
 
-        # init tp group
+        # init tp group (interleaved ranks with stride of cp_size)
         for i in range(self.pp_size):
             for j in range(self.cp_size):
-                ranks = range(
-                    i * self.tp_size * self.cp_size + j * self.tp_size,
-                    i * self.tp_size * self.cp_size + (j + 1) * self.tp_size)
+                ranks = range(i * self.tp_size * self.cp_size + j,
+                              (i + 1) * self.tp_size * self.cp_size + j,
+                              self.cp_size)
                 self.tp_groups.append(list(ranks))
 
         # init moe tp group
diff --git a/tensorrt_llm/models/modeling_utils.py b/tensorrt_llm/models/modeling_utils.py
@@ -740,10 +740,11 @@ def from_checkpoint(
 
         rank = config.mapping.rank
         if config.mapping.cp_size > 1:
-            # tp_cp_pp rank -> tp_pp rank: because different cp ranks share the same ckpt
+            # cp_tp_pp rank -> tp_pp rank: because different cp ranks share the same ckpt
             tp_size = config.mapping.tp_size
             cp_size = config.mapping.cp_size
-            rank = rank % tp_size + rank // (tp_size * cp_size) * tp_size
+            rank = (rank % (tp_size * cp_size)) // cp_size + rank // (
+                tp_size * cp_size) * tp_size
         weights_path = os.path.join(ckpt_dir, f'rank{rank}.safetensors')
 
         assert os.path.isfile(weights_path)
diff --git a/tests/unittest/others/test_mapping.py b/tests/unittest/others/test_mapping.py
@@ -57,27 +57,27 @@ def test_mapping(self):
         self.assertEqual(len(m.tp_groups), 4)
         self.assertEqual(len(m.pp_groups), 4)
         self.assertEqual(len(m.cp_groups), 4)
-        self.assertEqual(m.tp_group, [2, 3])
+        self.assertEqual(m.tp_group, [1, 3])
         self.assertEqual(m.pp_group, [3, 7])
-        self.assertEqual(m.cp_group, [1, 3])
+        self.assertEqual(m.cp_group, [2, 3])
         self.assertTrue(m.is_first_pp_rank())
         self.assertFalse(m.is_last_pp_rank())
         self.assertFalse(m.is_first_cp_rank())
         self.assertTrue(m.is_last_cp_rank())
         self.assertEqual(m.prev_pp_rank(), 7)
         self.assertEqual(m.next_pp_rank(), 7)
-        self.assertEqual(m.prev_cp_rank(), 1)
-        self.assertEqual(m.next_cp_rank(), 1)
+        self.assertEqual(m.prev_cp_rank(), 2)
+        self.assertEqual(m.next_cp_rank(), 2)
 
         m = Mapping(world_size=16, rank=9, tp_size=2, pp_size=2, cp_size=4)
-        self.assertEqual(m.tp_group, [8, 9])
+        self.assertEqual(m.tp_group, [9, 13])
         self.assertEqual(m.pp_group, [1, 9])
-        self.assertEqual(m.cp_group, [9, 11, 13, 15])
+        self.assertEqual(m.cp_group, [8, 9, 10, 11])
         self.assertFalse(m.is_first_pp_rank())
         self.assertTrue(m.is_last_pp_rank())
-        self.assertTrue(m.is_first_cp_rank())
+        self.assertFalse(m.is_first_cp_rank())
         self.assertFalse(m.is_last_cp_rank())
         self.assertEqual(m.prev_pp_rank(), 1)
         self.assertEqual(m.next_pp_rank(), 1)
-        self.assertEqual(m.prev_cp_rank(), 15)
-        self.assertEqual(m.next_cp_rank(), 11)
+        self.assertEqual(m.prev_cp_rank(), 8)
+        self.assertEqual(m.next_cp_rank(), 10)