rename to permlane_swap

tgymnich · tgymnich · commit 1b2e5ff24ef6 · 2025-08-21T10:11:38.000-05:00
diff --git a/mlir/include/mlir/Dialect/AMDGPU/IR/AMDGPU.td b/mlir/include/mlir/Dialect/AMDGPU/IR/AMDGPU.td
@@ -656,40 +656,27 @@ def AMDGPU_SwizzleBitModeOp : AMDGPU_Op<"swizzle_bitmode",
   }];
 }
 
-def AMDGPU_PermlanePerm : I32EnumAttr<"PermlanePerm",
-    "The possible permutations for a permlane operation",
-    [
-      I32EnumAttrCase<"swap_16",  0>,
-      I32EnumAttrCase<"swap_32",  1>,
-    ]> {
-  let genSpecializedAttr = 0;
-  let cppNamespace = "::mlir::amdgpu";
-}
-
-def AMDGPU_PermlanePermAttr : EnumAttr<AMDGPU_Dialect, AMDGPU_PermlanePerm,
-  "permlane_perm">;
-
-def AMDGPU_PermlaneOp : AMDGPU_Op<"permlane", [Pure, AllTypesMatch<["result", "src"]>]> {
-  let summary = "AMDGPU permlane op";
+def AMDGPU_PermlaneSwapOp : AMDGPU_Op<"permlane_swap", [Pure, AllTypesMatch<["result", "src"]>]> {
+  let summary = "AMDGPU permlane swap op";
   let description = [{
-    High-level wrapper on `rocdl.permlane.*` variants for permutations
-     on rows of lanes in a subgroup.
+    High-level wrapper on `rocdl.permlane{16,32}.swap` variants for permutations
+    on rows of lanes in a subgroup.
 
     Supports arbitrary int/float/vector types, which will be repacked to i32 and
-    one or more `rocdl.permlane.*` ops during lowering.
+    one or more `rocdl.permlane_swap` ops during lowering.
     Supported lane permutations:
-    - Swap the data between odd and even rows of 16 lanes (`swap_16`)
-    - Swap the data between the first 32 lanes and the last 32 lanes (`swap_32`)
+    - Swap the data between odd and even rows of 16 lanes
+    - Swap the data between the first 32 lanes and the last 32 lanes
 
     Example:
     ```mlir
-    %0 = amdgpu.permlane %src swap_16 : f16
-    %1 = amdgpu.permlane %src swap_32 { fetch_inactive = true, bound_ctrl = true } : f16
+    %0 = amdgpu.permlane %src 16 : f16
+    %1 = amdgpu.permlane %src 32 { fetch_inactive = true, bound_ctrl = true } : f16
     ```
 
     Operands:
     * `$src`: Vector register to permute across lanes of the subgroup.
-    * `$kind`: The kind of permutation operation.
+    * `$row_length`: The length of a row to permute in number of lanes (valid values are 16 and 32).
     * `$fetch_inactive`: Optional. Used to dertermine behavior of a fetch from a disabled lane.
       `fetch_inactive = false`: If the source lane is disabled, use `bound_ctrl` to determine the source value.
       `fetch_inactive = true`: If the source lane is disabled, fetch the source value anyway (ignoring `bound_ctrl`).
@@ -701,13 +688,14 @@ def AMDGPU_PermlaneOp : AMDGPU_Op<"permlane", [Pure, AllTypesMatch<["result", "s
     Note: Lowering is only supported on gfx950 and up.
   }];
   let arguments = (ins AnyIntegerOrFloatOr1DVector:$src,
-                       AMDGPU_PermlanePermAttr:$kind,
+                       I32Attr:$row_length,
                        DefaultValuedAttr<BoolAttr, "false">:$fetch_inactive,
                        DefaultValuedAttr<BoolAttr, "false">:$bound_ctrl);
   let results = (outs AnyIntegerOrFloatOr1DVector:$result);
   let assemblyFormat = [{
-    $src $kind attr-dict `:` type($result)
+    $src $row_length attr-dict `:` type($result)
   }];
+  let hasVerifier = 1;
 }
 
 def AMDGPU_LDSBarrierOp : AMDGPU_Op<"lds_barrier"> {
diff --git a/mlir/lib/Conversion/AMDGPUToROCDL/AMDGPUToROCDL.cpp b/mlir/lib/Conversion/AMDGPUToROCDL/AMDGPUToROCDL.cpp
@@ -1877,23 +1877,23 @@ struct AMDGPUSwizzleBitModeLowering
   }
 };
 
-struct AMDGPUPermlaneLowering : public ConvertOpToLLVMPattern<PermlaneOp> {
+struct AMDGPUPermlaneLowering : public ConvertOpToLLVMPattern<PermlaneSwapOp> {
   using ConvertOpToLLVMPattern::ConvertOpToLLVMPattern;
 
   AMDGPUPermlaneLowering(const LLVMTypeConverter &converter, Chipset chipset)
-      : ConvertOpToLLVMPattern<PermlaneOp>(converter), chipset(chipset) {}
+      : ConvertOpToLLVMPattern<PermlaneSwapOp>(converter), chipset(chipset) {}
   Chipset chipset;
 
   LogicalResult
-  matchAndRewrite(PermlaneOp op, OpAdaptor adaptor,
+  matchAndRewrite(PermlaneSwapOp op, OpAdaptor adaptor,
                   ConversionPatternRewriter &rewriter) const override {
     if (chipset < kGfx950)
       return op->emitOpError("permlane_swap is only supported on gfx950+");
 
     Location loc = op.getLoc();
     Type i32 = rewriter.getI32Type();
     Value src = adaptor.getSrc();
-    auto kind = op.getKind();
+    unsigned row_length = op.getRowLength();
     bool fi = op.getFetchInactive();
     bool boundctrl = op.getBoundCtrl();
 
@@ -1905,16 +1905,15 @@ struct AMDGPUPermlaneLowering : public ConvertOpToLLVMPattern<PermlaneOp> {
       Value res;
       Type i32pair = LLVM::LLVMStructType::getLiteral(
           rewriter.getContext(), {v.getType(), v.getType()});
-      switch (kind) {
-      case PermlanePerm::swap_16:
+
+      if (row_length == 16)
         res = ROCDL::Permlane16SwapOp::create(rewriter, loc, i32pair, v, v, fi,
                                               boundctrl);
-        break;
-      case PermlanePerm::swap_32:
+      else if (row_length == 32)
         res = ROCDL::Permlane32SwapOp::create(rewriter, loc, i32pair, v, v, fi,
                                               boundctrl);
-        break;
-      }
+      else
+        llvm_unreachable("unsupported row length");
 
       Value vdstNew = LLVM::ExtractValueOp::create(rewriter, loc, res, {0});
       permuted.emplace_back(vdstNew);
diff --git a/mlir/lib/Dialect/AMDGPU/IR/AMDGPUDialect.cpp b/mlir/lib/Dialect/AMDGPU/IR/AMDGPUDialect.cpp
@@ -510,6 +510,18 @@ LogicalResult DPPOp::verify() {
   return success();
 }
 
+//===----------------------------------------------------------------------===//
+// PermlaneSwapOp
+//===----------------------------------------------------------------------===//
+LogicalResult PermlaneSwapOp::verify() {
+  unsigned rowLength = getRowLength();
+
+  if (rowLength != 16 && rowLength != 32)
+    return emitOpError("row_length attribute must either be 16 or 32.");
+
+  return success();
+}
+
 //===----------------------------------------------------------------------===//
 // GatherToLDSOp
 //===----------------------------------------------------------------------===//
diff --git a/mlir/test/Conversion/AMDGPUToROCDL/permlane.mlir b/mlir/test/Conversion/AMDGPUToROCDL/permlane.mlir
@@ -6,7 +6,7 @@ func.func @test_permlane16_i32(%arg0 : i32) -> i32 {
 // CHECK:  %[[PERM:.*]] = rocdl.permlane16.swap %[[ARG0]], %[[ARG0]], false, false : (i32, i32) -> <(i32, i32)>
 // CHECK:  %[[RES:.*]] = llvm.extractvalue %[[PERM]][0] : !llvm.struct<(i32, i32)>
 // CHECK:  return %[[RES]] : i32
-  %0 = amdgpu.permlane %arg0 swap_16 : i32
+  %0 = amdgpu.permlane_swap %arg0 16 : i32
   return %0 : i32
 }
 
@@ -16,7 +16,7 @@ func.func @test_permlane16_i32_optional_attr(%arg0 : i32) -> i32 {
 // CHECK:  %[[PERM:.*]] = rocdl.permlane16.swap %[[ARG0]], %[[ARG0]], true, true : (i32, i32) -> <(i32, i32)>
 // CHECK:  %[[RES:.*]] = llvm.extractvalue %[[PERM]][0] : !llvm.struct<(i32, i32)>
 // CHECK:  return %[[RES]] : i32
-  %0 = amdgpu.permlane %arg0 swap_16 { fetch_inactive = true, bound_ctrl = true }  : i32
+  %0 = amdgpu.permlane_swap %arg0 16 { fetch_inactive = true, bound_ctrl = true }  : i32
   return %0 : i32
 }
 
@@ -26,7 +26,7 @@ func.func @test_permlane32_i32(%arg0 : i32) -> i32 {
 // CHECK:  %[[PERM:.*]] = rocdl.permlane32.swap %[[ARG0]], %[[ARG0]], false, false : (i32, i32) -> <(i32, i32)>
 // CHECK:  %[[RES:.*]] = llvm.extractvalue %[[PERM]][0] : !llvm.struct<(i32, i32)>
 // CHECK:  return %[[RES]] : i32
-  %0 = amdgpu.permlane %arg0 swap_32 : i32
+  %0 = amdgpu.permlane_swap %arg0 32 : i32
   return %0 : i32
 }
 
@@ -38,7 +38,7 @@ func.func @test_permlane16_f32(%arg0 : f32) -> f32 {
 // CHECK:  %[[RES:.*]] = llvm.extractvalue %[[PERM]][0] : !llvm.struct<(i32, i32)>
 // CHECK:  %[[RES_CAST:.*]] = llvm.bitcast %[[RES]] : i32 to f32
 // CHECK:  return %[[RES_CAST]] : f32
-  %0 = amdgpu.permlane %arg0 swap_16 : f32
+  %0 = amdgpu.permlane_swap %arg0 16 : f32
   return %0 : f32
 }
 
@@ -50,7 +50,7 @@ func.func @test_permlane32_f32(%arg0 : f32) -> f32 {
 // CHECK:  %[[RES:.*]] = llvm.extractvalue %[[PERM]][0] : !llvm.struct<(i32, i32)>
 // CHECK:  %[[RES_CAST:.*]] = llvm.bitcast %[[RES]] : i32 to f32
 // CHECK:  return %[[RES_CAST]] : f32
-  %0 = amdgpu.permlane %arg0 swap_32 : f32
+  %0 = amdgpu.permlane_swap %arg0 32 : f32
   return %0 : f32
 }
 
@@ -64,7 +64,7 @@ func.func @test_permlane16_f16(%arg0 : f16) -> f16 {
 // CHECK:  %[[TRUNC:.*]] = llvm.trunc %[[RES]] : i32 to i16
 // CHECK:  %[[RES_CAST:.*]] = llvm.bitcast %[[TRUNC]] : i16 to f16
 // CHECK:  return %[[RES_CAST]] : f16
-  %0 = amdgpu.permlane %arg0 swap_16 : f16
+  %0 = amdgpu.permlane_swap %arg0 16 : f16
   return %0 : f16
 }
 
@@ -78,7 +78,7 @@ func.func @test_permlane32_f16(%arg0 : f16) -> f16 {
 // CHECK:  %[[TRUNC:.*]] = llvm.trunc %[[RES]] : i32 to i16
 // CHECK:  %[[RES_CAST:.*]] = llvm.bitcast %[[TRUNC]] : i16 to f16
 // CHECK:  return %[[RES_CAST]] : f16
-  %0 = amdgpu.permlane %arg0 swap_32 : f16
+  %0 = amdgpu.permlane_swap %arg0 32 : f16
   return %0 : f16
 }
 
@@ -97,7 +97,7 @@ func.func @test_permlane16_2xi32(%arg0 : vector<2xi32>) -> vector<2xi32> {
 // CHECK:      %[[VEC_INSERT0:.*]] = llvm.insertelement %[[PERM0]], %[[POISON]][%[[C0]] : i32] : vector<2xi32>
 // CHECK:      %[[VEC_INSERT1:.*]] = llvm.insertelement %[[PERM1]], %[[VEC_INSERT0]][%[[C1]] : i32] : vector<2xi32>
 // CHECK:      return %[[VEC_INSERT1]] : vector<2xi32>
-  %0 = amdgpu.permlane %arg0 swap_16 : vector<2xi32>
+  %0 = amdgpu.permlane_swap %arg0 16 : vector<2xi32>
   return %0 : vector<2xi32>
 }
 
@@ -116,7 +116,7 @@ func.func @test_permlane32_2xi32(%arg0 : vector<2xi32>) -> vector<2xi32> {
 // CHECK:      %[[VEC_INSERT0:.*]] = llvm.insertelement %[[PERM0]], %[[POISON]][%[[C0]] : i32] : vector<2xi32>
 // CHECK:      %[[VEC_INSERT1:.*]] = llvm.insertelement %[[PERM1]], %[[VEC_INSERT0]][%[[C1]] : i32] : vector<2xi32>
 // CHECK:      return %[[VEC_INSERT1]] : vector<2xi32>
-  %0 = amdgpu.permlane %arg0 swap_32 : vector<2xi32>
+  %0 = amdgpu.permlane_swap %arg0 32 : vector<2xi32>
   return %0 : vector<2xi32>
 }
 
@@ -137,7 +137,7 @@ func.func @test_permlane16_4xf16(%arg0 : vector<4xf16>) -> vector<4xf16> {
 // CHECK:      %[[VEC_INSERT1:.*]] = llvm.insertelement %[[PERM1]], %[[VEC_INSERT0]][%[[C1]] : i32] : vector<2xi32>
 // CHECK:      %[[CAST2:.*]] = llvm.bitcast %[[VEC_INSERT1]] : vector<2xi32> to vector<4xf16>
 // CHECK:      return %[[CAST2]] : vector<4xf16>
-  %0 = amdgpu.permlane %arg0 swap_16 : vector<4xf16>
+  %0 = amdgpu.permlane_swap %arg0 16 : vector<4xf16>
   return %0 : vector<4xf16>
 }
 
@@ -158,6 +158,6 @@ func.func @test_permlane32_4xf16(%arg0 : vector<4xf16>) -> vector<4xf16> {
 // CHECK:      %[[VEC_INSERT1:.*]] = llvm.insertelement %[[PERM1]], %[[VEC_INSERT0]][%[[C1]] : i32] : vector<2xi32>
 // CHECK:      %[[CAST2:.*]] = llvm.bitcast %[[VEC_INSERT1]] : vector<2xi32> to vector<4xf16>
 // CHECK:      return %[[CAST2]] : vector<4xf16>
-  %0 = amdgpu.permlane %arg0 swap_32 : vector<4xf16>
+  %0 = amdgpu.permlane_swap %arg0 32 : vector<4xf16>
   return %0 : vector<4xf16>
 }
diff --git a/mlir/test/Dialect/AMDGPU/ops.mlir b/mlir/test/Dialect/AMDGPU/ops.mlir
@@ -526,15 +526,15 @@ func.func @swizzle_bitmode(%arg0 : f32) -> f32 {
 
 // CHECK-LABEL: func @permlane16_swap
 func.func @permlane16_swap(%arg0 : f32) -> f32 {
-  // CHECK: amdgpu.permlane
-  %0 = amdgpu.permlane %arg0 swap_16 : f32
+  // CHECK: amdgpu.permlane_swap
+  %0 = amdgpu.permlane_swap %arg0 16 : f32
   func.return %0 : f32
 }
 
 // CHECK-LABEL: func @permlane32_swap
 func.func @permlane32_swap(%arg0 : f32) -> f32 {
-  // CHECK: amdgpu.permlane
-  %0 = amdgpu.permlane %arg0 swap_32 : f32
+  // CHECK: amdgpu.permlane_swap
+  %0 = amdgpu.permlane_swap %arg0 32 : f32
   func.return %0 : f32
 }