intel
diff --git a/‎include/triton/Conversion/TritonGPUToLLVM/PatternTritonGPUOpToLLVM.h‎
Lines changed: 1 addition & 1 deletion b/‎include/triton/Conversion/TritonGPUToLLVM/PatternTritonGPUOpToLLVM.h‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎include/triton/Conversion/TritonToTritonGPU/TritonToTritonGPUPass.h‎
Lines changed: 0 additions & 6 deletions b/‎include/triton/Conversion/TritonToTritonGPU/TritonToTritonGPUPass.h‎
Lines changed: 0 additions & 6 deletions
diff --git a/‎include/triton/Dialect/Triton/IR/Dialect.h‎
Lines changed: 1 addition & 1 deletion b/‎include/triton/Dialect/Triton/IR/Dialect.h‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎include/triton/Dialect/Triton/IR/TritonOps.td‎
Lines changed: 5 additions & 1 deletion b/‎include/triton/Dialect/Triton/IR/TritonOps.td‎
Lines changed: 5 additions & 1 deletion
diff --git a/‎include/triton/Dialect/TritonGPU/IR/Dialect.h‎
Lines changed: 7 additions & 0 deletions b/‎include/triton/Dialect/TritonGPU/IR/Dialect.h‎
Lines changed: 7 additions & 0 deletions
diff --git a/‎include/triton/Dialect/TritonGPU/IR/TritonGPUDialect.td‎
Lines changed: 3 additions & 22 deletions b/‎include/triton/Dialect/TritonGPU/IR/TritonGPUDialect.td‎
Lines changed: 3 additions & 22 deletions
diff --git a/‎include/triton/Dialect/TritonNvidiaGPU/IR/Dialect.h‎
Lines changed: 3 additions & 7 deletions b/‎include/triton/Dialect/TritonNvidiaGPU/IR/Dialect.h‎
Lines changed: 3 additions & 7 deletions
diff --git a/‎include/triton/Dialect/TritonNvidiaGPU/IR/TritonNvidiaGPUDialect.td‎
Lines changed: 0 additions & 15 deletions b/‎include/triton/Dialect/TritonNvidiaGPU/IR/TritonNvidiaGPUDialect.td‎
Lines changed: 0 additions & 15 deletions
diff --git a/‎lib/Analysis/Utility.cpp‎
Lines changed: 3 additions & 6 deletions b/‎lib/Analysis/Utility.cpp‎
Lines changed: 3 additions & 6 deletions
diff --git a/‎lib/Conversion/TritonGPUToLLVM/DecomposeUnsupportedConversions.cpp‎
Lines changed: 23 additions & 19 deletions b/‎lib/Conversion/TritonGPUToLLVM/DecomposeUnsupportedConversions.cpp‎
Lines changed: 23 additions & 19 deletions
@@ -100,7 +100,7 @@ void populateSPMDOpToLLVMPattern(LLVMTypeConverter &typeConverter,
                                  PatternBenefit benefit);
 
 void populateFuncOpConversionPattern(LLVMTypeConverter &typeConverter,
-                                     RewritePatternSet &patterns, int numWarps,
+                                     RewritePatternSet &patterns,
                                      const TargetInfoBase &targetInfo,
                                      PatternBenefit benefit);
 
 
@@ -12,12 +12,6 @@ template <typename T> class OperationPass;
 
 namespace triton {
 
-constexpr static char AttrNumWarpsName[] = "ttg.num-warps";
-constexpr static char AttrNumCTAsName[] = "ttg.num-ctas";
-constexpr static char AttrTargetName[] = "ttg.target";
-
-constexpr static char AttrNumThreadsPerWarp[] = "ttg.threads-per-warp";
-
 // Create the pass with numWarps passed from cl::opt.
 std::unique_ptr<OperationPass<ModuleOp>> createConvertTritonToTritonGPUPass();
 
 
@@ -91,7 +91,7 @@ class DialectVerifyTensorLayoutInterface
   DialectVerifyTensorLayoutInterface(Dialect *dialect) : Base(dialect) {}
 
   virtual LogicalResult
-  verifyTensorLayout(Attribute layout, RankedTensorType type, ModuleOp module,
+  verifyTensorLayout(Attribute layout, RankedTensorType type, Operation *op,
                      function_ref<InFlightDiagnostic()> emitError) const = 0;
 };
 
 
@@ -1118,7 +1118,11 @@ def CallOp : TT_Op<"call", [CallOpInterface, /*MemRefsNormalizable, */DeclareOpI
   }];
 }
 
-def FuncOp : TT_Op<"func", [AffineScope, AutomaticAllocationScope, CallableOpInterface, FunctionOpInterface, IsolatedFromAbove, OpAsmOpInterface]> {
+def FuncOp : TT_Op<"func", [
+    AffineScope, AutomaticAllocationScope, CallableOpInterface,
+    FunctionOpInterface, IsolatedFromAbove, OpAsmOpInterface,
+    HasParent<"ModuleOp">
+]> {
   let summary = "An operation with a name containing a single `SSACFG` region";
   let description = [{
     Operations within the function cannot implicitly capture values defined
 
@@ -39,6 +39,13 @@ template <> struct hash<CacheKey> {
 
 namespace mlir::triton::gpu {
 
+constexpr static char AttrNumWarpsName[] = "ttg.num-warps";
+constexpr static char AttrNumCTAsName[] = "ttg.num-ctas";
+constexpr static char AttrTargetName[] = "ttg.target";
+constexpr static char AttrNumThreadsPerWarp[] = "ttg.threads-per-warp";
+
+int lookupNumWarps(Operation *op);
+
 class LinearLayoutCache {
 public:
   std::optional<LinearLayout> get(const CacheKey &key) {
 
@@ -20,32 +20,13 @@ def TritonGPU_Dialect : Dialect {
   ];
 
   let extraClassDeclaration = [{
-    static std::string getNumWarpsAttrName() { return "ttg.num-warps"; }
-    static int getNumWarps(ModuleOp mod) {
-      if (!mod->hasAttr("ttg.num-warps"))
-        llvm::report_fatal_error(
-            "TritonGPU module should contain a ttg.num-warps attribute");
-      return cast<IntegerAttr>(mod->getAttr("ttg.num-warps")).getInt();
-    }
-    static int getNumCTAs(ModuleOp mod) {
-      if (!mod->hasAttr("ttg.num-ctas"))
-        return 1;
-      return cast<IntegerAttr>(mod->getAttr("ttg.num-ctas")).getInt();
-    }
     void registerTypes();
 
-    static std::string getThreadsPerWarpAttrName() { return "ttg.threads-per-warp"; }
-
-    static int getThreadsPerWarp(ModuleOp mod) {
-      Attribute threadsPerWarp = mod->getDiscardableAttr("ttg.threads-per-warp");
-      if(!threadsPerWarp) {
-        return 32;
-      }
-      return cast<IntegerAttr>(threadsPerWarp).getInt();
-    }
-
     LinearLayout toLinearLayout(ArrayRef<int64_t> shape, Attribute layout);
 
+    static int getNumCTAs(ModuleOp mod);
+    static int getThreadsPerWarp(ModuleOp mod);
+
     private:
       LinearLayoutCache llCache;
   }];
 
@@ -42,9 +42,7 @@
 #define GET_OP_CLASSES
 #include "triton/Dialect/TritonNvidiaGPU/IR/Ops.h.inc"
 
-namespace mlir {
-namespace triton {
-namespace nvidia_gpu {
+namespace mlir::triton::nvidia_gpu {
 
 struct TensorMemory : public SideEffects::Resource::Base<TensorMemory> {
   StringRef getName() final { return "<TensorMemory>"; }
@@ -63,12 +61,10 @@ Attribute getTmemCompatibleLayout(unsigned M, unsigned N,
                                   ArrayRef<int64_t> shape, unsigned numWarps,
                                   triton::gpu::CTALayoutAttr ctaLayout);
 
-bool isDistributedLayoutTMemCompatible(ModuleOp mod,
+bool isDistributedLayoutTMemCompatible(Operation *op,
                                        RankedTensorType tensorType,
                                        gpu::MemDescType memType);
 
-} // namespace nvidia_gpu
-} // namespace triton
-} // namespace mlir
+} // namespace mlir::triton::nvidia_gpu
 
 #endif // TRITON_DIALECT_TRITONNVIDIAGPU_IR_DIALECT_H_
@@ -41,21 +41,6 @@ def TritonNvidiaGPU_Dialect : Dialect {
     "mlir::gpu::GPUDialect",
   ];
 
-  let extraClassDeclaration = [{
-    static std::string getNumWarpsAttrName() { return "ttg.num-warps"; }
-    static int getNumWarps(ModuleOp mod) {
-      if(!mod->hasAttr("ttg.num-warps"))
-        llvm::report_fatal_error(
-            "TritonGPU module should contain a ttg.num-warps attribute");
-      return cast<IntegerAttr>(mod->getAttr("ttg.num-warps")).getInt();
-    }
-    static int getNumCTAs(ModuleOp mod) {
-      if(!mod->hasAttr("ttg.num-ctas"))
-        llvm::report_fatal_error(
-            "TritonGPU module should contain a ttg.num-ctas attribute");
-      return cast<IntegerAttr>(mod->getAttr("ttg.num-ctas")).getInt();
-    }
-  }];
   let useDefaultAttributePrinterParser = 1;
   let usePropertiesForAttributes = 1;
 }
 
@@ -302,8 +302,7 @@ bool ScanLoweringHelper::isSupported() {
 }
 
 unsigned ScanLoweringHelper::getScratchSizeInElems() {
-  auto mod = scanOp->getParentOfType<ModuleOp>();
-  unsigned numWarps = TritonGPUDialect::getNumWarps(mod);
+  unsigned numWarps = lookupNumWarps(scanOp);
   unsigned numNonAxisElementsPerWarp =
       getNonAxisNumThreadsPerWarp() * getNonAxisNumElementsPerThread();
   unsigned numElements = numWarps * numNonAxisElementsPerWarp *
@@ -726,8 +725,7 @@ bool supportMMA(triton::DotOp op, int version) {
     auto retType = op.getType();
     auto retShapePerCTA = getShapePerCTA(retType);
     auto rank = retShapePerCTA.size();
-    auto mod = op->getParentOfType<ModuleOp>();
-    int numWarps = TritonGPUDialect::getNumWarps(mod);
+    int numWarps = lookupNumWarps(op);
     if (aElemTy.isInteger() || bElemTy.isInteger() ||
         retType.getElementType().isInteger())
       return false;
@@ -749,8 +747,7 @@ bool supportMMA(triton::DotOp op, int version) {
       return false;
     auto retShapePerCTA = getShapePerCTA(retType);
     auto rank = retShapePerCTA.size();
-    auto mod = op->getParentOfType<ModuleOp>();
-    int numWarps = TritonGPUDialect::getNumWarps(mod);
+    int numWarps = lookupNumWarps(op);
     // TODO(Keren): for now, fallback to MMAv2 if handling batch matmul.
     if (rank == 3)
       return false;
 
@@ -20,9 +20,9 @@ namespace mlir::triton::gpu {
 
 void decomposeTensorCoreToDotLayoutConversion(ModuleOp module,
                                               ShortcutFn shortcutFn) {
-  int numWarps = triton::gpu::TritonGPUDialect::getNumWarps(module);
-  int numCTAs = triton::gpu::TritonGPUDialect::getNumCTAs(module);
-  int threadsPerWarp = triton::gpu::TritonGPUDialect::getThreadsPerWarp(module);
+  MLIRContext *ctx = module.getContext();
+  int numCTAs = TritonGPUDialect::getNumCTAs(module);
+  int threadsPerWarp = TritonGPUDialect::getThreadsPerWarp(module);
 
   module.walk([&](triton::gpu::ConvertLayoutOp cvtOp) -> void {
     OpBuilder builder(cvtOp);
@@ -31,28 +31,32 @@ void decomposeTensorCoreToDotLayoutConversion(ModuleOp module,
     auto srcMma = dyn_cast<MmaEncodingTrait>(srcType.getEncoding());
     auto dstDotOp =
         dyn_cast<triton::gpu::DotOperandEncodingAttr>(dstType.getEncoding());
-    if (srcMma && dstDotOp && !shortcutFn(srcType, dstType)) {
-      auto tmpType = RankedTensorType::get(
-          dstType.getShape(), dstType.getElementType(),
-          triton::gpu::BlockedEncodingAttr::get(
-              module.getContext(), srcType.getShape(), getSizePerThread(srcMma),
-              getOrder(srcMma), numWarps, threadsPerWarp, numCTAs));
-      auto tmp = builder.create<triton::gpu::ConvertLayoutOp>(
-          cvtOp.getLoc(), tmpType, cvtOp.getSrc());
-      addAttrs(tmp, cvtOp->getAttrs());
-      auto newConvert = builder.create<triton::gpu::ConvertLayoutOp>(
-          cvtOp.getLoc(), dstType, tmp);
-      addAttrs(newConvert, cvtOp->getAttrs());
-      cvtOp.replaceAllUsesWith(newConvert.getResult());
-      cvtOp.erase();
-    }
+    if (!srcMma || !dstDotOp || shortcutFn(srcType, dstType))
+      return;
+
+    int numWarps = lookupNumWarps(cvtOp);
+    auto enc = BlockedEncodingAttr::get(
+        ctx, srcType.getShape(), getSizePerThread(srcMma), getOrder(srcMma),
+        numWarps, threadsPerWarp, numCTAs);
+    auto tmpType = RankedTensorType::get(dstType.getShape(),
+                                         dstType.getElementType(), enc);
+
+    auto tmp = builder.create<ConvertLayoutOp>(cvtOp.getLoc(), tmpType,
+                                               cvtOp.getSrc());
+    addAttrs(tmp, cvtOp->getAttrs());
+    auto newConvert =
+        builder.create<ConvertLayoutOp>(cvtOp.getLoc(), dstType, tmp);
+    addAttrs(newConvert, cvtOp->getAttrs());
+
+    cvtOp.replaceAllUsesWith(newConvert.getResult());
+    cvtOp.erase();
   });
 }
 
 void decomposeBlockedToDotLayoutConversion(ModuleOp module) {
-  int numWarps = triton::gpu::TritonGPUDialect::getNumWarps(module);
   int numCTAs = triton::gpu::TritonGPUDialect::getNumCTAs(module);
   int threadsPerWarp = triton::gpu::TritonGPUDialect::getThreadsPerWarp(module);
+
   module.walk([&](triton::gpu::ConvertLayoutOp cvtOp) -> void {
     OpBuilder builder(cvtOp);
     auto srcType = cast<RankedTensorType>(cvtOp.getSrc().getType());