check if scale , zp are all ScalarConstantTensor, only run dq, q around op removal if quantization is per tensor

xiaohanAMD · xiaohanAMD · commit 5a200dd3ab19 · 2025-08-21T16:07:44.000+01:00
diff --git a/src/Dialect/ONNX/ONNXOps/OpHelper.cpp b/src/Dialect/ONNX/ONNXOps/OpHelper.cpp
@@ -315,16 +315,26 @@ ElementsAttr getElementAttributeFromONNXValue(Value value) {
     return mlir::dyn_cast<ElementsAttr>(constantOp.getValueAttr());
   return nullptr;
 }
+
+// compare two ElementsAttr, except for their internal buffer size
 bool compareValueFromElementAttribute(
     ElementsAttr &attr1, ElementsAttr &attr2) {
-  auto values1 = attr1.getValues<mlir::Attribute>();
-  auto values2 = attr2.getValues<mlir::Attribute>();
-
-  if (values1.size() != values2.size()) {
+  if (attr1.getType() != attr2.getType()) {
     return false;
   }
-  return std::equal(values1.begin(), values1.end(), values2.begin());
+  if (attr1.getNumElements() != attr2.getNumElements()) {
+    return false;
+  }
+  auto it1 = attr1.getValues<mlir::Attribute>().begin();
+  auto it2 = attr2.getValues<mlir::Attribute>().begin();
+  for (; it1 != attr1.getValues<mlir::Attribute>().end(); ++it1, ++it2) {
+    if (*it1 != *it2) {
+      return false;
+    }
+  }
+  return true;
 }
+
 // Returns the ConstantOp which defines an MLIR Value or null.
 ONNXConstantOp getONNXConstantOp(Value value) {
   return mlir::dyn_cast_or_null<ONNXConstantOp>(value.getDefiningOp());
diff --git a/src/Dialect/ONNX/Transforms/QDQAroundOpOpt.cpp b/src/Dialect/ONNX/Transforms/QDQAroundOpOpt.cpp
@@ -54,17 +54,18 @@ class RemoveQDQAroundOpPattern : public OpRewritePattern<T> {
 
   LogicalResult matchAndRewrite(
       T op, PatternRewriter &rewriter) const override {
-    // if (llvm::isa<ONNXResizeOp>(op)) {
-    if (auto resizeOp = dyn_cast<ONNXResizeOp>(op)) {
-      // auto &resizeOp = llvm::cast<ONNXResizeOp>(op);
+    if (llvm::isa<ONNXResizeOp>(op)) {
+      auto &resizeOp = llvm::cast<ONNXResizeOp>(op);
       if (resizeOp.getMode() != "nearest") {
         return failure();
       }
     }
     InputAndOutput opIO = getDataInputOutput(op);
 
     auto dqOp = opIO.input.getDefiningOp<ONNXDequantizeLinearOp>();
-    if (!dqOp) {
+    // Only run this pass if Quantizelization is on tensor
+    if (!dqOp || !isScalarConstantTensor(dqOp.getXScale()) ||
+        !isScalarConstantTensor(dqOp.getXZeroPoint())) {
       return failure();
     }
     if (!opIO.output.hasOneUse()) {
@@ -73,6 +74,10 @@ class RemoveQDQAroundOpPattern : public OpRewritePattern<T> {
 
     Operation *firstOp = *(opIO.output.getUsers().begin());
     if (auto qOp = dyn_cast<ONNXQuantizeLinearOp>(firstOp)) {
+      if (!isScalarConstantTensor(qOp.getYScale()) ||
+          !isScalarConstantTensor(qOp.getYZeroPoint())) {
+        return failure();
+      }
       if (!isDequantQuantSame(dqOp, qOp))
         return failure();