Comms: Concat to dus (#1847)

wsmoses · web-flow · commit 894601b2233c · 2025-12-25T22:03:59.000-05:00
* Comms: Concat to dus

* Add reactant_commit entry to test-gb-25.yml

* fix
diff --git a/.github/workflows/test-gb-25.yml b/.github/workflows/test-gb-25.yml
@@ -53,7 +53,7 @@ jobs:
           - 'main'
           # - '0123456789abcdef0123456789abcdef01234567'
         reactant_commit:
-          - 'main'
+          - 'c2d'
 
     steps:
       - name: Check GPUs
diff --git a/src/enzyme_ad/jax/Passes/OptimizeCommunication.cpp b/src/enzyme_ad/jax/Passes/OptimizeCommunication.cpp
@@ -3693,6 +3693,119 @@ struct ConcatToPadCommOptimize
   }
 };
 
+struct ConcatToDUSOptimize : public OpRewritePattern<stablehlo::ConcatenateOp> {
+  using OpRewritePattern::OpRewritePattern;
+
+  LogicalResult matchAndRewrite(stablehlo::ConcatenateOp concat,
+                                PatternRewriter &rewriter) const override {
+    if (concat->getParentOfType<sdy::ManualComputationOp>())
+      return failure();
+    auto ndims = concat.getType().getShape().size();
+    auto concatShape = concat.getType().getShape();
+    auto concatDimension = concat.getDimension();
+    auto concatDimSize = concatShape[concatDimension];
+    auto elemType = concat.getType().getElementType();
+
+    auto concatSharding = mlir::sdy::getSharding(concat);
+    if (!concatSharding)
+      return failure();
+
+    auto numDevicesAlongDimension =
+        getNumDevicesAlongDimension(concatSharding, concatDimension, concat);
+    if (numDevicesAlongDimension == 1) {
+      return rewriter.notifyMatchFailure(
+          concat,
+          "numDevicesAlongDimension == 1. Communication is already optimized.");
+    }
+
+    if (concat.getNumOperands() == 2 &&
+        isRotateLike(concat.getDimension(), concat.getOperands()[0],
+                     concat.getOperands()[1])) {
+      return rewriter.notifyMatchFailure(concat, "Explicit rotate like comm");
+    }
+
+    SmallVector<int64_t> padLow(ndims, 0);
+    SmallVector<int64_t> padHigh(ndims, 0);
+    SmallVector<int64_t> padInner(ndims, 0);
+
+    SmallVector<Value> addOperands;
+
+    size_t largest_idx = 0;
+    for (auto &&[idx, operand] : llvm::enumerate(concat.getOperands())) {
+      auto operandSharding = mlir::sdy::getSharding(operand);
+      if (!operandSharding || (operandSharding != concatSharding))
+        return failure();
+      if (cast<RankedTensorType>(operand.getType())
+              .getShape()[concatDimension] >
+          cast<RankedTensorType>(concat.getOperands()[largest_idx].getType())
+              .getShape()[concatDimension]) {
+        largest_idx = idx;
+      }
+    }
+
+    auto zero = stablehlo::ConstantOp::create(rewriter, concat.getLoc(),
+                                              rewriter.getZeroAttr(elemType));
+
+    int64_t leftPadding = 0;
+    for (auto [i, operand] : llvm::enumerate(concat.getOperands())) {
+      auto operandConcatDimSize =
+          cast<RankedTensorType>(operand.getType()).getShape()[concatDimension];
+      if (i == largest_idx)
+        break;
+      leftPadding += operandConcatDimSize;
+    }
+
+    padLow[concatDimension] = leftPadding;
+    padHigh[concatDimension] =
+        concatDimSize - leftPadding -
+        cast<RankedTensorType>(concat.getOperands()[largest_idx].getType())
+            .getShape()[concatDimension];
+
+    auto padStart = stablehlo::PadOp::create(rewriter, concat.getLoc(),
+                                             concat.getOperands()[largest_idx],
+                                             zero, padLow, padHigh, padInner);
+    assert(concat.getType() == padStart.getType());
+    sdy::setSharding(padStart, concatSharding);
+
+    Value current = padStart;
+
+    leftPadding = 0;
+
+    auto i32 = RankedTensorType::get({}, concatDimSize < (1ULL << 32)
+                                             ? rewriter.getI32Type()
+                                             : rewriter.getI64Type());
+    auto zeroI32 = stablehlo::ConstantOp::create(rewriter, concat.getLoc(),
+                                                 rewriter.getZeroAttr(i32));
+
+    for (auto [i, operand] : llvm::enumerate(concat.getOperands())) {
+      auto operandConcatDimSize =
+          cast<RankedTensorType>(operand.getType()).getShape()[concatDimension];
+
+      if (isZero(operand) || i == largest_idx) {
+        leftPadding += operandConcatDimSize;
+        continue;
+      }
+
+      SmallVector<Value> idxs(ndims, zeroI32);
+      idxs[concatDimension] = stablehlo::ConstantOp::create(
+          rewriter, concat.getLoc(), i32,
+          cast<ElementsAttr>(makeAttr(i32, leftPadding)));
+
+      auto paddedOperand = stablehlo::DynamicUpdateSliceOp::create(
+
+          rewriter, concat.getLoc(), current, operand, idxs);
+
+      assert(concat.getType() == paddedOperand.getType());
+      sdy::setSharding(paddedOperand, concatSharding);
+      leftPadding += operandConcatDimSize;
+      current = paddedOperand;
+    }
+
+    rewriter.replaceOp(concat, current);
+    return success();
+  }
+};
+
 // See https://github.com/EnzymeAD/Enzyme-JAX/issues/854 for the motivation
 // TODO: At some point if we can come up with a cost model for this, we can do a
 //       greedy search for the best ordering
@@ -3881,6 +3994,9 @@ struct OptimizeCommunicationPass
       patterns.add<ConcatToPadCommOptimize>(context,
                                             PatternBenefit(concat_to_pad_comm));
 
+    if (concat_to_dus > 0)
+      patterns.add<ConcatToDUSOptimize>(context, PatternBenefit(concat_to_dus));
+
     if (concat_two_operands_comm > 0)
       patterns.add<ConcatTwoOperandsCommOptimize>(
           channel_id, context, PatternBenefit(concat_two_operands_comm));
diff --git a/src/enzyme_ad/jax/Passes/Passes.td b/src/enzyme_ad/jax/Passes/Passes.td
@@ -889,6 +889,12 @@ def OptimizeCommunication : Pass<"optimize-communication"> {
        /*default=*/"0",
        /*description=*/"Convert Concatenate two operands to Manual Computation with CollectivePermute">,
        Option<
+       /*C++ variable name=*/"concat_to_dus",
+       /*CLI argument=*/"concat_to_dus",
+       /*type=*/"int",
+       /*default=*/"0",
+       /*description=*/"Perform a Concatenate with Padding to optimize the communication">,
+       Option<
        /*C++ variable name=*/"concat_to_pad_comm",
        /*CLI argument=*/"concat_to_pad_comm",
        /*type=*/"int",
diff --git a/test/lit_tests/communication/concat2dus.mlir b/test/lit_tests/communication/concat2dus.mlir
@@ -0,0 +1,32 @@
+// RUN: enzymexlamlir-opt --pass-pipeline="builtin.module(optimize-communication{periodic_concat=0 concat_to_pad_comm=0 concat_to_dus=1 dus_to_pad_comm=0})" %s | FileCheck %s
+
+sdy.mesh @mesh1 = <["z"=1, "x"=4, "y"=4]>
+func.func @main1(%arg0: tensor<20x24x80xf64> {sdy.sharding = #sdy.sharding<@mesh1, [{"z"}, {"y"}, {"x"}]>}, %arg1: tensor<20x24x80xf64> {sdy.sharding = #sdy.sharding<@mesh1, [{"z"}, {"y"}, {"x"}]>}) -> (tensor<20x24x120xf64> {sdy.sharding = #sdy.sharding<@mesh1, [{"z"}, {"y"}, {"x"}]>}) {
+    %0 = stablehlo.slice %arg1 [0:20, 0:24, 0:40] {sdy.sharding = #sdy.sharding_per_value<[<@mesh1, [{"z"}, {"y"}, {"x"}]>]>} : (tensor<20x24x80xf64>) -> tensor<20x24x40xf64>
+    %1 = stablehlo.concatenate %arg0, %0, dim = 2 {sdy.sharding = #sdy.sharding_per_value<[<@mesh1, [{"z"}, {"y"}, {"x"}]>]>} : (tensor<20x24x80xf64>, tensor<20x24x40xf64>) -> tensor<20x24x120xf64>
+    return %1 : tensor<20x24x120xf64>
+}
+
+func.func @main2(%arg0: tensor<20x24x80xf64> {sdy.sharding = #sdy.sharding<@mesh1, [{"z"}, {"y"}, {"x"}]>}, %arg1: tensor<20x24x80xf64> {sdy.sharding = #sdy.sharding<@mesh1, [{"z"}, {"y"}, {"x"}]>}) -> (tensor<20x24x120xf64> {sdy.sharding = #sdy.sharding<@mesh1, [{"z"}, {"y"}, {"x"}]>}) {
+    %0 = stablehlo.slice %arg1 [0:20, 0:24, 0:40] {sdy.sharding = #sdy.sharding_per_value<[<@mesh1, [{"z"}, {"y"}, {"x"}]>]>} : (tensor<20x24x80xf64>) -> tensor<20x24x40xf64>
+    %1 = stablehlo.concatenate %0, %arg0, dim = 2 {sdy.sharding = #sdy.sharding_per_value<[<@mesh1, [{"z"}, {"y"}, {"x"}]>]>} : (tensor<20x24x40xf64>, tensor<20x24x80xf64>) -> tensor<20x24x120xf64>
+    return %1 : tensor<20x24x120xf64>
+}
+
+// CHECK:  func.func @main1(%arg0: tensor<20x24x80xf64> {sdy.sharding = #sdy.sharding<@mesh1, [{"z"}, {"y"}, {"x"}]>}, %arg1: tensor<20x24x80xf64> {sdy.sharding = #sdy.sharding<@mesh1, [{"z"}, {"y"}, {"x"}]>}) -> (tensor<20x24x120xf64> {sdy.sharding = #sdy.sharding<@mesh1, [{"z"}, {"y"}, {"x"}]>}) {
+// CHECK-NEXT:    %c = stablehlo.constant dense<80> : tensor<i32>
+// CHECK-NEXT:    %c_0 = stablehlo.constant dense<0> : tensor<i32>
+// CHECK-NEXT:    %cst = stablehlo.constant dense<0.000000e+00> : tensor<f64>
+// CHECK-NEXT:    %0 = stablehlo.slice %arg1 [0:20, 0:24, 0:40] {sdy.sharding = #sdy.sharding_per_value<[<@mesh1, [{"z"}, {"y"}, {"x"}]>]>} : (tensor<20x24x80xf64>) -> tensor<20x24x40xf64>
+// CHECK-NEXT:    %1 = stablehlo.pad %arg0, %cst, low = [0, 0, 0], high = [0, 0, 40], interior = [0, 0, 0] {sdy.sharding = #sdy.sharding_per_value<[<@mesh1, [{"z"}, {"y"}, {"x"}]>]>} : (tensor<20x24x80xf64>, tensor<f64>) -> tensor<20x24x120xf64>
+// CHECK-NEXT:    %2 = stablehlo.dynamic_update_slice %1, %0, %c_0, %c_0, %c {sdy.sharding = #sdy.sharding_per_value<[<@mesh1, [{"z"}, {"y"}, {"x"}]>]>} : (tensor<20x24x120xf64>, tensor<20x24x40xf64>, tensor<i32>, tensor<i32>, tensor<i32>) -> tensor<20x24x120xf64>
+// CHECK-NEXT:    return %2 : tensor<20x24x120xf64>
+// CHECK-NEXT:  }
+// CHECK:  func.func @main2(%arg0: tensor<20x24x80xf64> {sdy.sharding = #sdy.sharding<@mesh1, [{"z"}, {"y"}, {"x"}]>}, %arg1: tensor<20x24x80xf64> {sdy.sharding = #sdy.sharding<@mesh1, [{"z"}, {"y"}, {"x"}]>}) -> (tensor<20x24x120xf64> {sdy.sharding = #sdy.sharding<@mesh1, [{"z"}, {"y"}, {"x"}]>}) {
+// CHECK-NEXT:    %c = stablehlo.constant dense<0> : tensor<i32>
+// CHECK-NEXT:    %cst = stablehlo.constant dense<0.000000e+00> : tensor<f64>
+// CHECK-NEXT:    %0 = stablehlo.slice %arg1 [0:20, 0:24, 0:40] {sdy.sharding = #sdy.sharding_per_value<[<@mesh1, [{"z"}, {"y"}, {"x"}]>]>} : (tensor<20x24x80xf64>) -> tensor<20x24x40xf64>
+// CHECK-NEXT:    %1 = stablehlo.pad %arg0, %cst, low = [0, 0, 40], high = [0, 0, 0], interior = [0, 0, 0] {sdy.sharding = #sdy.sharding_per_value<[<@mesh1, [{"z"}, {"y"}, {"x"}]>]>} : (tensor<20x24x80xf64>, tensor<f64>) -> tensor<20x24x120xf64>
+// CHECK-NEXT:    %2 = stablehlo.dynamic_update_slice %1, %0, %c, %c, %c {sdy.sharding = #sdy.sharding_per_value<[<@mesh1, [{"z"}, {"y"}, {"x"}]>]>} : (tensor<20x24x120xf64>, tensor<20x24x40xf64>, tensor<i32>, tensor<i32>, tensor<i32>) -> tensor<20x24x120xf64>
+// CHECK-NEXT:    return %2 : tensor<20x24x120xf64>
+// CHECK-NEXT:  }