ROCm
diff --git a/‎mlir/include/mlir/Dialect/Rock/IR/RockOps.td‎
Lines changed: 32 additions & 39 deletions b/‎mlir/include/mlir/Dialect/Rock/IR/RockOps.td‎
Lines changed: 32 additions & 39 deletions
diff --git a/‎mlir/lib/Conversion/TosaToRock/TosaToRock.cpp‎
Lines changed: 47 additions & 6 deletions b/‎mlir/lib/Conversion/TosaToRock/TosaToRock.cpp‎
Lines changed: 47 additions & 6 deletions
diff --git a/‎mlir/lib/Dialect/Rock/Transforms/GridwiseGemmToBlockwise.cpp‎
Lines changed: 16 additions & 2 deletions b/‎mlir/lib/Dialect/Rock/Transforms/GridwiseGemmToBlockwise.cpp‎
Lines changed: 16 additions & 2 deletions
@@ -205,27 +205,22 @@ def Rock_ReduceOp :
   }];
 }
 
-def Rock_AttentionOp :
-  Rock_Op<"attention", [DeclareOpInterfaceMethods<MemoryEffectsOpInterface>, RockFusionRoot, AttrSizedOperandSegments]>,
-  Arguments<(ins
-    TensorOrMemRefOf<[F32, F16, BF16, I8]>:$queries,
-    TensorOrMemRefOf<[F32, F16, BF16, I8]>:$keys,
-    TensorOrMemRefOf<[F32, F16, BF16]>:$values,
-    Variadic<TensorOrMemRefOf<[F32, F16, BF16, I8]>>:$preSoftmaxElemWiseInputs,
-    Optional<TensorOrMemRefOf<[I32]>>:$currentSeqLen,
-    TensorOrMemRefOf<[F32, BF16, F16]>:$out,
-    UnitAttr:$qTransposed,
-    UnitAttr:$kTransposed,
-    UnitAttr:$vTransposed,
-    UnitAttr:$oTransposed,
-    StrAttr:$arch,
-    Rock_GemmFeaturesAttr:$features,
-    OptionalAttr<I32Attr>:$numCU,
-    OptionalAttr<RockTuningParamAttrInterface>:$params0,
-    OptionalAttr<RockTuningParamAttrInterface>:$params1,
-    I32Attr:$firstGemmIdx
-  )>,
-  Results<(outs Optional<TensorOf<[F32, F16, BF16]>>:$result)> {
+def Rock_AttentionOp
+    : Rock_Op<"attention", [DeclareOpInterfaceMethods<MemoryEffectsOpInterface>,
+                            RockFusionRoot, AttrSizedOperandSegments]>,
+      Arguments<(ins TensorOrMemRefOf<[F32, F16, BF16, I8]>:$queries,
+          TensorOrMemRefOf<[F32, F16, BF16, I8]>:$keys,
+          TensorOrMemRefOf<[F32, F16, BF16]>:$values,
+          Variadic<AnyTensorOrMemRef>:$preSoftmaxElemWiseInputs,
+          Optional<TensorOrMemRefOf<[I32]>>:$currentSeqLen,
+          TensorOrMemRefOf<[F32, BF16, F16]>:$out, UnitAttr:$qTransposed,
+          UnitAttr:$kTransposed, UnitAttr:$vTransposed, UnitAttr:$oTransposed,
+          StrAttr:$arch, Rock_GemmFeaturesAttr:$features,
+          OptionalAttr<I32Attr>:$numCU,
+          OptionalAttr<RockTuningParamAttrInterface>:$params0,
+          OptionalAttr<RockTuningParamAttrInterface>:$params1,
+          I32Attr:$firstGemmIdx)>,
+      Results<(outs Optional<TensorOf<[F32, F16, BF16]>>:$result)> {
   let summary = "Attention operation of transformer models";
   let description = [{
     Performs the operation out = SOFTMAX((queries * keys) .* scale) * values.
@@ -432,24 +427,22 @@ def Rock_GridwiseGemmAccelOp :
 }
 
 // gridwise_attention_accel
-def Rock_GridwiseAttentionAccelOp :
-    Rock_Op<"gridwise_attention_accel", [DeclareOpInterfaceMethods<MemoryEffectsOpInterface>, RockFusionRoot, AttrSizedOperandSegments]>,
-    Arguments<(ins MemRefRankOf<[F32, F16, BF16, I8], [3]>:$queries,
-                   MemRefRankOf<[F32, F16, BF16, I8], [3]>:$keys,
-                   MemRefRankOf<[F32, F16, BF16,], [3]>:$values,
-                   Variadic<TensorOrMemRefOf<[F32, F16, BF16, I8]>>:$preSoftmaxElemWiseInputs,
-                   Optional<MemRefRankOf<[I32], [1]>>:$currentSeqLen,
-                   MemRefRankOf<[F32, F16, BF16], [3]>:$out,
-                   StrAttr:$arch,
-                   Rock_GemmFeaturesAttr:$features,
-                   I32Attr:$blockSize,
-                   I32Attr:$gridSize,
-                   UnitAttr:$disableQBypassLDS,
-                   OptionalAttr<IndexAttr>:$prePadG0M,
-                   OptionalAttr<IndexAttr>:$prePadG0N,
-                   RockAccelTuningParamAttrInterface:$params0,
-                   RockAccelTuningParamAttrInterface:$params1,
-                   I32Attr:$firstGemmIdx)> {
+def Rock_GridwiseAttentionAccelOp
+    : Rock_Op<"gridwise_attention_accel",
+              [DeclareOpInterfaceMethods<MemoryEffectsOpInterface>,
+               RockFusionRoot, AttrSizedOperandSegments]>,
+      Arguments<(ins MemRefRankOf<[F32, F16, BF16, I8], [3]>:$queries,
+          MemRefRankOf<[F32, F16, BF16, I8], [3]>:$keys,
+          MemRefRankOf<[F32, F16, BF16, ], [3]>:$values,
+          Variadic<AnyTensorOrMemRef>:$preSoftmaxElemWiseInputs,
+          Optional<MemRefRankOf<[I32], [1]>>:$currentSeqLen,
+          MemRefRankOf<[F32, F16, BF16], [3]>:$out, StrAttr:$arch,
+          Rock_GemmFeaturesAttr:$features, I32Attr:$blockSize,
+          I32Attr:$gridSize, UnitAttr:$disableQBypassLDS,
+          OptionalAttr<IndexAttr>:$prePadG0M,
+          OptionalAttr<IndexAttr>:$prePadG0N,
+          RockAccelTuningParamAttrInterface:$params0,
+          RockAccelTuningParamAttrInterface:$params1, I32Attr:$firstGemmIdx)> {
   let summary = "Gridwise attention accelerated version";
   let description = [{
     The `rock.gridwise_attention_accel` op computes gridwise attention with acceleration.
 
@@ -905,6 +905,23 @@ static bool isElementwiseOp(Operation *op) {
 struct AttentionRewritePattern : public OpRewritePattern<tosa::MatMulOp> {
   using OpRewritePattern<tosa::MatMulOp>::OpRewritePattern;
 
+  FailureOr<Value> getValueNonReshapeOpNonBroadcast(Value val) const {
+    while (val.getDefiningOp() &&
+           (val.getDefiningOp<tensor::CollapseShapeOp>() ||
+            val.getDefiningOp<tensor::ExpandShapeOp>() ||
+            val.getDefiningOp<tosa::TransposeOp>() ||
+            val.getDefiningOp<tosa::AddOp>())) {
+      if (val.getDefiningOp<tosa::AddOp>()) {
+        auto maybeBroadcast = addBroadcast(val);
+        if (failed(maybeBroadcast))
+          return failure();
+        val = maybeBroadcast.value();
+      } else
+        val = val.getDefiningOp()->getOperand(0);
+    }
+    return val;
+  }
+
   Value getValueNonReshapeOp(Value val) const {
     while (val.getDefiningOp() &&
            (val.getDefiningOp<tensor::CollapseShapeOp>() ||
@@ -1004,8 +1021,35 @@ struct AttentionRewritePattern : public OpRewritePattern<tosa::MatMulOp> {
         if (failed(maybeNonZero2))
           return failure();
 
+        // check that the right dimensions are broadcasted
+        auto beforeBroadcastShape =
+            dyn_cast<ShapedType>(maybeNonZero2->getType());
+        if (beforeBroadcastShape) {
+          auto shape = beforeBroadcastShape.getShape();
+          if (beforeBroadcastShape.getRank() > 2 &&
+              !llvm::all_of(shape.slice(2), [](int32_t v) { return v == 1; }))
+            return failure();
+        } else {
+          return failure();
+        }
+
         Value currentSeqLen = getValueNonReshapeOp(maybeNonZero2.value());
         Value result = select.getOnFalse();
+
+        // currentSeqLen must be of i32 type
+        auto currentSeqLenShape = dyn_cast<ShapedType>(currentSeqLen.getType());
+        if (!currentSeqLenShape ||
+            !currentSeqLenShape.getElementType().isInteger(32))
+          return failure();
+
+        // we'll check now if currentSeqLen comes from a block argument
+        FailureOr<Value> mustBeBlockArg =
+            getValueNonReshapeOpNonBroadcast(currentSeqLen);
+
+        if (failed(mustBeBlockArg) ||
+            !isa<BlockArgument>(mustBeBlockArg.value()))
+          return failure();
+
         return std::make_pair(result, currentSeqLen);
       }
     }
@@ -1216,9 +1260,8 @@ struct AttentionRewritePattern : public OpRewritePattern<tosa::MatMulOp> {
   LogicalResult match(tosa::MatMulOp op) const override {
     FailureOr<std::tuple<Value, bool, Value>> softmaxInputResult =
         maybeSoftmax(op.getA());
-    if (failed(softmaxInputResult)) {
+    if (failed(softmaxInputResult))
       return failure();
-    }
 
     Value softmaxInput, currentSeqLen;
     bool hasReduceOp;
@@ -1245,12 +1288,10 @@ struct AttentionRewritePattern : public OpRewritePattern<tosa::MatMulOp> {
       LLVM_DEBUG(llvm::dbgs()
                  << "first matmul = " << maybeFirstMatMul.value() << "\n");
       LLVM_DEBUG(llvm::dbgs() << "hasReduceOp = " << hasReduceOp << "\n");
-      if (isDotProduct && hasReduceOp) {
+      if (isDotProduct && hasReduceOp)
         return failure();
-      }
-      if (!isDotProduct && !hasReduceOp) {
+      if (!isDotProduct && !hasReduceOp)
         return failure();
-      }
     } else {
       LLVM_DEBUG(llvm::dbgs() << "first matmul not found\n");
     }
 
@@ -868,6 +868,9 @@ struct GridwiseAttentionAccelRewritePattern
         return failure();
       }
     } else {
+      assert(!ldsLayoutCfg.doSwapThreadIterSubDims &&
+             "doSwapThreadIterSubDims must be false if the destination buffer "
+             "is private memory");
       accel::AccelEmitterParams accelEmitterParams = accelEmitter.getParams();
       int64_t dRepeats = (nonKDimName == "m" ? accelEmitterParams.mRepeats
                                              : accelEmitterParams.nRepeats);
@@ -1754,6 +1757,16 @@ struct GridwiseAttentionAccelRewritePattern
     }
     LDSLayoutConfigDim ldsLayoutCfgNG0 = getLDSLayoutConfigDim(
         elemTypeQ, gemm0kpack, maybeVectorDimInfoQ.value());
+    if (doBypassLDSForQ) {
+      ldsLayoutCfgNG0.doSwapThreadIterSubDims = false;
+    }
+#ifndef ROCK_DEBUG_ATTENTION_REMOVE_SOFTMAX
+    // TODO: Workaround for issue
+    // https://github.com/ROCm/rocMLIR-internal/issues/1802 If sumRowBuffer and
+    // expMaxDiffRowBuffer are filled with doSwapThreadIterSubDims=true, it does
+    // not match with the second GEMM N dimension. Find a good solution to this.
+    ldsLayoutCfgNG0.doSwapThreadIterSubDims = false;
+#endif
     FailureOr<VectorDimInfo> maybeVectorDimInfoK =
         getVectorDim(rewriter, loc, inK, elemTypeK, blockSize, gemm0KPerBlock,
                      gemm0MPerBlock, gemm0kpack);
@@ -1828,7 +1841,7 @@ struct GridwiseAttentionAccelRewritePattern
     Value accRegBufferGemm0 =
         createBufferForAccelGemmOut(loc, accelParamsGemm0, rewriter);
     // Currently, there is a working assumption that this kernel is meant
-    // support fp32/fp16 This should be guranteed by op verifiers.
+    // support fp32/fp16/bf16. This should be guranteed by op verifiers.
     Type gemmOutElemType = elemTypeQxK;
     Type softmaxInElemType = elemTypeQxK;
     if (elemTypeQ == rewriter.getI8Type()) {
@@ -1979,12 +1992,13 @@ struct GridwiseAttentionAccelRewritePattern
         if (failed(statusLoadQ)) {
           return failure();
         }
+        rewriter.create<LDSBarrierOp>(loc);
 
         TypedValue<MemRefType> ldsTileBufferQ = viewBufferAs(
             rewriter, ldsByteBufferQ, vectorTypeOrSelf(elemTypeQ, gemm0kpack));
         loadGemmOperandsFromLDSToRegs(
             rewriter, loc, ldsTileBufferQ, preAccelRegBuffersQ, "n", blockSize,
-            gemm0InMPerThread, *accelEmitterPtrGemm0.get(),
+            gemm0InNPerThread, *accelEmitterPtrGemm0.get(),
             ldsLayoutCfgNG0.doRotateWithK);
         rewriter.create<GpuDeallocOp>(loc, ldsByteBufferQ);
       }