Merge pull request #446 from Xilinx/chaitany.fix_convtranpose_4x4_mismatch

chaitanyakamarapu · web-flow · commit e4cf47f03137 · 2025-09-19T22:56:47.000+05:30
fixing a mismatch in 4x4 kernel usecase
diff --git a/src/Dialect/ONNX/Transforms/Decompose.cpp b/src/Dialect/ONNX/Transforms/Decompose.cpp
@@ -1648,7 +1648,7 @@ Value decomposeIntoPhasedConvs(PatternRewriter &rewriter, Location loc,
     };
     auto stridesArrayAttr = rewriter.getI64ArrayAttr({1, 1});
     Value conv;
-    if (needWeightsPadding) {
+    if (needWeightsPadding || (kernelShape[0] == 4)) {
       Value conv1 = getActivationAppliedToConv(
           addQDQNodesForActivationIfNeeded(rewriter.create<ONNXConvOp>(loc,
               convOutputType, input, addDequantizeNodeIfNeeded(weightSlices[3]),
@@ -1683,42 +1683,44 @@ Value decomposeIntoPhasedConvs(PatternRewriter &rewriter, Location loc,
           convOutputType);
       // Need to remove excess the ofm  when weights are padded.
 
-      auto startOnnxConstant = getONNXConstOpFromVector(rewriter, loc, {1, 1});
-      auto endOnnxConstant = getONNXConstOpFromVector(rewriter, loc,
-          {convOutputShape[convOutputShape.size() - 2] + 2,
-              convOutputShape[convOutputShape.size() - 1] + 2});
-      auto axisOnnxConstant = getONNXConstOpFromVector(rewriter, loc, {2, 3});
-      auto stepOnnxConstant = getONNXConstOpFromVector(rewriter, loc, {1, 1});
-      auto convSliceOutputType = RankedTensorType::get(
-          convOutputShape, convTransposeOutputType.getElementType());
-      conv1 = rewriter.create<ONNXSliceOp>(loc, convSliceOutputType, conv1,
-          startOnnxConstant, endOnnxConstant, axisOnnxConstant,
-          stepOnnxConstant);
-
-      startOnnxConstant = getONNXConstOpFromVector(rewriter, loc, {0, 0});
-      endOnnxConstant = getONNXConstOpFromVector(rewriter, loc,
-          {convOutputShape[convOutputShape.size() - 2],
-              convOutputShape[convOutputShape.size() - 1]});
-      conv2 = rewriter.create<ONNXSliceOp>(loc, convSliceOutputType, conv2,
-          startOnnxConstant, endOnnxConstant, axisOnnxConstant,
-          stepOnnxConstant);
-
-      startOnnxConstant = getONNXConstOpFromVector(rewriter, loc, {1, 0});
-      endOnnxConstant = getONNXConstOpFromVector(rewriter, loc,
-          {convOutputShape[convOutputShape.size() - 2] + 2,
-              convOutputShape[convOutputShape.size() - 1]});
-      conv3 = rewriter.create<ONNXSliceOp>(loc, convSliceOutputType, conv3,
-          startOnnxConstant, endOnnxConstant, axisOnnxConstant,
-          stepOnnxConstant);
-
-      startOnnxConstant = getONNXConstOpFromVector(rewriter, loc, {0, 1});
-      endOnnxConstant = getONNXConstOpFromVector(rewriter, loc,
-          {convOutputShape[convOutputShape.size() - 2],
-              convOutputShape[convOutputShape.size() - 1] + 2});
-      conv4 = rewriter.create<ONNXSliceOp>(loc, convSliceOutputType, conv4,
-          startOnnxConstant, endOnnxConstant, axisOnnxConstant,
-          stepOnnxConstant);
-
+      if (needWeightsPadding) {
+        auto startOnnxConstant =
+            getONNXConstOpFromVector(rewriter, loc, {1, 1});
+        auto endOnnxConstant = getONNXConstOpFromVector(rewriter, loc,
+            {convOutputShape[convOutputShape.size() - 2] + 2,
+                convOutputShape[convOutputShape.size() - 1] + 2});
+        auto axisOnnxConstant = getONNXConstOpFromVector(rewriter, loc, {2, 3});
+        auto stepOnnxConstant = getONNXConstOpFromVector(rewriter, loc, {1, 1});
+        auto convSliceOutputType = RankedTensorType::get(
+            convOutputShape, convTransposeOutputType.getElementType());
+        conv1 = rewriter.create<ONNXSliceOp>(loc, convSliceOutputType, conv1,
+            startOnnxConstant, endOnnxConstant, axisOnnxConstant,
+            stepOnnxConstant);
+
+        startOnnxConstant = getONNXConstOpFromVector(rewriter, loc, {0, 0});
+        endOnnxConstant = getONNXConstOpFromVector(rewriter, loc,
+            {convOutputShape[convOutputShape.size() - 2],
+                convOutputShape[convOutputShape.size() - 1]});
+        conv2 = rewriter.create<ONNXSliceOp>(loc, convSliceOutputType, conv2,
+            startOnnxConstant, endOnnxConstant, axisOnnxConstant,
+            stepOnnxConstant);
+
+        startOnnxConstant = getONNXConstOpFromVector(rewriter, loc, {1, 0});
+        endOnnxConstant = getONNXConstOpFromVector(rewriter, loc,
+            {convOutputShape[convOutputShape.size() - 2] + 2,
+                convOutputShape[convOutputShape.size() - 1]});
+        conv3 = rewriter.create<ONNXSliceOp>(loc, convSliceOutputType, conv3,
+            startOnnxConstant, endOnnxConstant, axisOnnxConstant,
+            stepOnnxConstant);
+
+        startOnnxConstant = getONNXConstOpFromVector(rewriter, loc, {0, 1});
+        endOnnxConstant = getONNXConstOpFromVector(rewriter, loc,
+            {convOutputShape[convOutputShape.size() - 2],
+                convOutputShape[convOutputShape.size() - 1] + 2});
+        conv4 = rewriter.create<ONNXSliceOp>(loc, convSliceOutputType, conv4,
+            startOnnxConstant, endOnnxConstant, axisOnnxConstant,
+            stepOnnxConstant);
+      }
       // Four conv outputs are merged in channel dim
       SmallVector<int64_t> outputShapeOfConcat = {
           1, convOutputShape[1] * 4, convOutputShape[2], convOutputShape[3]};
diff --git a/test/mlir/onnx/onnx_decompose_convtranspose_phased_conv.mlir b/test/mlir/onnx/onnx_decompose_convtranspose_phased_conv.mlir
@@ -502,13 +502,15 @@ func.func @test_convtrans_4phase_kernel_shape_44(%arg0: tensor<1x512x8x8xf32>, %
 // CHECK:           %[[VAL_22:.*]] = "onnx.Slice"(%[[VAL_20]], %[[VAL_9]], %[[VAL_8]], %[[VAL_13]], %[[VAL_12]]) : (tensor<512x512x4x4xf32>, tensor<2xi64>, tensor<2xi64>, tensor<2xi64>, tensor<2xi64>) -> tensor<512x512x2x2xf32>
 // CHECK:           %[[VAL_23:.*]] = "onnx.Slice"(%[[VAL_20]], %[[VAL_7]], %[[VAL_6]], %[[VAL_13]], %[[VAL_12]]) : (tensor<512x512x4x4xf32>, tensor<2xi64>, tensor<2xi64>, tensor<2xi64>, tensor<2xi64>) -> tensor<512x512x2x2xf32>
 // CHECK:           %[[VAL_24:.*]] = "onnx.Slice"(%[[VAL_20]], %[[VAL_5]], %[[VAL_4]], %[[VAL_13]], %[[VAL_12]]) : (tensor<512x512x4x4xf32>, tensor<2xi64>, tensor<2xi64>, tensor<2xi64>, tensor<2xi64>) -> tensor<512x512x2x2xf32>
-// CHECK:           %[[VAL_25:.*]] = "onnx.Concat"(%[[VAL_21]], %[[VAL_23]], %[[VAL_22]], %[[VAL_24]]) {axis = 0 : si64} : (tensor<512x512x2x2xf32>, tensor<512x512x2x2xf32>, tensor<512x512x2x2xf32>, tensor<512x512x2x2xf32>) -> tensor<2048x512x2x2xf32>
-// CHECK:           %[[VAL_26:.*]] = "onnx.Concat"(%[[VAL_15]], %[[VAL_15]], %[[VAL_15]], %[[VAL_15]]) {axis = 0 : si64} : (tensor<512xf32>, tensor<512xf32>, tensor<512xf32>, tensor<512xf32>) -> tensor<2048xf32>
-// CHECK:           %[[VAL_27:.*]] = "onnx.Conv"(%[[VAL_0]], %[[VAL_25]], %[[VAL_26]]) {auto_pad = "NOTSET", dilations = [1, 1], group = 1 : si64, kernel_shape = [2, 2], pads = [0, 0, 1, 1], strides = [1, 1]} : (tensor<1x512x8x8xf32>, tensor<2048x512x2x2xf32>, tensor<2048xf32>) -> tensor<1x2048x8x8xf32>
-// CHECK:           %[[VAL_28:.*]] = "onnx.Reshape"(%[[VAL_27]], %[[VAL_3]]) {allowzero = 0 : si64} : (tensor<1x2048x8x8xf32>, tensor<5xi64>) -> tensor<2x2x512x8x8xf32>
-// CHECK:           %[[VAL_29:.*]] = "onnx.Transpose"(%[[VAL_28]]) {perm = [2, 3, 0, 4, 1]} : (tensor<2x2x512x8x8xf32>) -> tensor<512x8x2x8x2xf32>
-// CHECK:           %[[VAL_30:.*]] = "onnx.Reshape"(%[[VAL_29]], %[[VAL_2]]) {allowzero = 0 : si64} : (tensor<512x8x2x8x2xf32>, tensor<4xi64>) -> tensor<1x512x16x16xf32>
-// CHECK:           onnx.Return %[[VAL_30]] : tensor<1x512x16x16xf32>
+// CHECK:           %[[VAL_25:.*]] = "onnx.Conv"(%[[VAL_0]], %[[VAL_24]], %[[VAL_15]]) {auto_pad = "NOTSET", dilations = [1, 1], group = 1 : si64, kernel_shape = [2, 2], pads = [0, 0, 1, 1], strides = [1, 1]} : (tensor<1x512x8x8xf32>, tensor<512x512x2x2xf32>, tensor<512xf32>) -> tensor<1x512x8x8xf32>
+// CHECK:           %[[VAL_26:.*]] = "onnx.Conv"(%[[VAL_0]], %[[VAL_21]], %[[VAL_15]]) {auto_pad = "NOTSET", dilations = [1, 1], group = 1 : si64, kernel_shape = [2, 2], pads = [1, 1, 0, 0], strides = [1, 1]} : (tensor<1x512x8x8xf32>, tensor<512x512x2x2xf32>, tensor<512xf32>) -> tensor<1x512x8x8xf32>
+// CHECK:           %[[VAL_27:.*]] = "onnx.Conv"(%[[VAL_0]], %[[VAL_22]], %[[VAL_15]]) {auto_pad = "NOTSET", dilations = [1, 1], group = 1 : si64, kernel_shape = [2, 2], pads = [0, 1, 1, 0], strides = [1, 1]} : (tensor<1x512x8x8xf32>, tensor<512x512x2x2xf32>, tensor<512xf32>) -> tensor<1x512x8x8xf32>
+// CHECK:           %[[VAL_28:.*]] = "onnx.Conv"(%[[VAL_0]], %[[VAL_23]], %[[VAL_15]]) {auto_pad = "NOTSET", dilations = [1, 1], group = 1 : si64, kernel_shape = [2, 2], pads = [1, 0, 0, 1], strides = [1, 1]} : (tensor<1x512x8x8xf32>, tensor<512x512x2x2xf32>, tensor<512xf32>) -> tensor<1x512x8x8xf32>
+// CHECK:           %[[VAL_29:.*]] = "onnx.Concat"(%[[VAL_26]], %[[VAL_28]], %[[VAL_27]], %[[VAL_25]]) {axis = 1 : si64} : (tensor<1x512x8x8xf32>, tensor<1x512x8x8xf32>, tensor<1x512x8x8xf32>, tensor<1x512x8x8xf32>) -> tensor<1x2048x8x8xf32>
+// CHECK:           %[[VAL_30:.*]] = "onnx.Reshape"(%[[VAL_29]], %[[VAL_3]]) {allowzero = 0 : si64} : (tensor<1x2048x8x8xf32>, tensor<5xi64>) -> tensor<2x2x512x8x8xf32>
+// CHECK:           %[[VAL_31:.*]] = "onnx.Transpose"(%[[VAL_30]]) {perm = [2, 3, 0, 4, 1]} : (tensor<2x2x512x8x8xf32>) -> tensor<512x8x2x8x2xf32>
+// CHECK:           %[[VAL_32:.*]] = "onnx.Reshape"(%[[VAL_31]], %[[VAL_2]]) {allowzero = 0 : si64} : (tensor<512x8x2x8x2xf32>, tensor<4xi64>) -> tensor<1x512x16x16xf32>
+// CHECK:           onnx.Return %[[VAL_32]] : tensor<1x512x16x16xf32>
 // CHECK:         }
 }