CleanUp

leonling-ll · leonling-ll · commit 234a24f50e6d · 2024-10-29T08:36:16.000Z
diff --git a/python/src/ir.cc b/python/src/ir.cc
@@ -1622,7 +1622,7 @@ void init_triton_ir(py::module &&m) {
              if (haveDump) {
                auto printingFlags = OpPrintingFlags();
                printingFlags.elideLargeElementsAttrs(16);
-               //  printingFlags.enableDebugInfo();
+               printingFlags.enableDebugInfo();
                auto printAlways = [funcToDump](Pass *, Operation *op) -> bool {
                  if (funcToDump.empty())
                    return true;
diff --git a/third_party/intel/lib/Dialect/TritonIntelGPU/IR/Dialect.cpp b/third_party/intel/lib/Dialect/TritonIntelGPU/IR/Dialect.cpp
@@ -1,6 +1,5 @@
 #include "triton/Dialect/Triton/IR/Dialect.h"
 
-#include <iostream>
 #include <numeric>
 
 #include "intel/include/Dialect/TritonIntelGPU/IR/LinearLayoutConversions.h"
@@ -153,8 +152,6 @@ DpasEncodingAttr::getShapePerCTATile(ArrayRef<int64_t> tensorShape) const {
   auto shapeC = getShapeC();
   SmallVector<unsigned> warpsPerCTA = getWarpsPerCTA();
   size_t rank = shapeC.size();
-  assert(rank == shapeC.size() &&
-         "ShapeC and WarpsPerCTA must have the same rank");
   SmallVector<unsigned> shapePerCTATile(rank);
   for (size_t i = 0; i < rank; ++i) {
     shapePerCTATile[i] = shapeC[i] * warpsPerCTA[i];
@@ -307,7 +304,6 @@ SmallVector<unsigned>
 DpasEncodingAttr::getShapePerCTATileForDotOperands(ArrayRef<int64_t> shape,
                                                    int opIdx) const {
   auto parentShapePerCTATile = getShapePerCTATile(shape);
-  // auto threadsPerWarp = getThreadsPerWarp();
   size_t rank = parentShapePerCTATile.size();
   if (opIdx == 0) {
     auto shapeA = getShapeA();
diff --git a/third_party/intel/lib/Dialect/TritonIntelGPU/IR/LinearLayoutConversions.cpp b/third_party/intel/lib/Dialect/TritonIntelGPU/IR/LinearLayoutConversions.cpp
@@ -508,7 +508,7 @@ LinearLayout DPAStoLinearLayout(ArrayRef<int64_t> shape, Attribute layout,
   int systolicDepth = dpas.getSystolicDepth();
   int repeatCount = dpas.getRepeatCount();
   int executionSize = dpas.getExecutionSize();
-  unsigned dimK, dimNonK;
+  unsigned KDim, nonKDim;
   if (opIdx == 0) { // Operand A
     auto regBasesA = DPASRegBasesA(opsPerChannel, repeatCount, threadsPerWarp,
                                    systolicDepth);
@@ -517,16 +517,16 @@ LinearLayout DPAStoLinearLayout(ArrayRef<int64_t> shape, Attribute layout,
     tileLayout = LinearLayout({{kRegister, regBasesA}, {kLane, laneBasesA}},
                               ArrayRef(outDimNames).take_back(2));
     // A only repeats by repCluster[rank - 2]
-    dimNonK = rank - 2;
-    dimK = rank - 1;
-    tileLayout *= LinearLayout::identity1D(repCluster[dimNonK], kRegister,
-                                           outDimNames[dimNonK]);
+    nonKDim = rank - 2;
+    KDim = rank - 1;
+    tileLayout *= LinearLayout::identity1D(repCluster[nonKDim], kRegister,
+                                           outDimNames[nonKDim]);
 
     // K-dimension is shared among warps
     tileLayout *=
-        LinearLayout::zeros1D(warpsPerCTA[dimK], kWarp, outDimNames[dimK]);
-    tileLayout *= LinearLayout::identity1D(warpsPerCTA[dimNonK], kWarp,
-                                           outDimNames[dimNonK]);
+        LinearLayout::zeros1D(warpsPerCTA[KDim], kWarp, outDimNames[KDim]);
+    tileLayout *= LinearLayout::identity1D(warpsPerCTA[nonKDim], kWarp,
+                                           outDimNames[nonKDim]);
     if (rank == 3)
       tileLayout *=
           LinearLayout::identity1D(warpsPerCTA[0], kWarp, outDimNames[0]);
@@ -539,16 +539,16 @@ LinearLayout DPAStoLinearLayout(ArrayRef<int64_t> shape, Attribute layout,
     tileLayout = LinearLayout({{kRegister, regBasesB}, {kLane, laneBasesB}},
                               ArrayRef(outDimNames).take_back(2));
     // B only repeats by repCluster[rank - 1]
-    dimNonK = rank - 1;
-    dimK = rank - 2;
-    tileLayout *= LinearLayout::identity1D(repCluster[dimNonK], kRegister,
-                                           outDimNames[dimNonK]);
+    nonKDim = rank - 1;
+    KDim = rank - 2;
+    tileLayout *= LinearLayout::identity1D(repCluster[nonKDim], kRegister,
+                                           outDimNames[nonKDim]);
 
     // K-dimension is shared among warps
-    tileLayout *= LinearLayout::identity1D(warpsPerCTA[dimNonK], kWarp,
-                                           outDimNames[dimNonK]);
+    tileLayout *= LinearLayout::identity1D(warpsPerCTA[nonKDim], kWarp,
+                                           outDimNames[nonKDim]);
     tileLayout *=
-        LinearLayout::zeros1D(warpsPerCTA[dimK], kWarp, outDimNames[dimK]);
+        LinearLayout::zeros1D(warpsPerCTA[KDim], kWarp, outDimNames[KDim]);
     if (rank == 3)
       tileLayout *=
           LinearLayout::identity1D(warpsPerCTA[0], kWarp, outDimNames[0]);
@@ -561,18 +561,18 @@ LinearLayout DPAStoLinearLayout(ArrayRef<int64_t> shape, Attribute layout,
     // The per-inst layout is repeated at each repCluster.
     // Hence, multiply with the identity layouts starting from the
     // least significant dimension.
-    dimNonK = rank - 2;
-    dimK = rank - 1;
-    tileLayout *= LinearLayout::identity1D(repCluster[dimK], kRegister,
-                                           outDimNames[dimK]);
-    tileLayout *= LinearLayout::identity1D(repCluster[dimNonK], kRegister,
-                                           outDimNames[dimNonK]);
+    nonKDim = rank - 2;
+    KDim = rank - 1;
+    tileLayout *= LinearLayout::identity1D(repCluster[KDim], kRegister,
+                                           outDimNames[KDim]);
+    tileLayout *= LinearLayout::identity1D(repCluster[nonKDim], kRegister,
+                                           outDimNames[nonKDim]);
 
     // // The identical layout is repeated among warps
     tileLayout *=
-        LinearLayout::identity1D(warpsPerCTA[dimK], kWarp, outDimNames[dimK]);
-    tileLayout *= LinearLayout::identity1D(warpsPerCTA[dimNonK], kWarp,
-                                           outDimNames[dimNonK]);
+        LinearLayout::identity1D(warpsPerCTA[KDim], kWarp, outDimNames[KDim]);
+    tileLayout *= LinearLayout::identity1D(warpsPerCTA[nonKDim], kWarp,
+                                           outDimNames[nonKDim]);
     if (rank == 3)
       tileLayout *=
           LinearLayout::identity1D(warpsPerCTA[0], kWarp, outDimNames[0]);
@@ -584,12 +584,12 @@ LinearLayout DPAStoLinearLayout(ArrayRef<int64_t> shape, Attribute layout,
   SmallVector<int64_t> numReps = dpas.getDPASRepetitions(shape, opIdx);
 
   // numReps is always 3D, we should add 1 to dim id when rank is 2
-  int repDimK = rank == 2 ? dimK + 1 : dimK;
-  int repDimNonK = rank == 2 ? dimNonK + 1 : dimNonK;
+  int repDimK = rank == 2 ? KDim + 1 : KDim;
+  int repDimNonK = rank == 2 ? nonKDim + 1 : nonKDim;
   tileLayout *=
-      LinearLayout::identity1D(numReps[repDimK], kRegister, outDimNames[dimK]);
+      LinearLayout::identity1D(numReps[repDimK], kRegister, outDimNames[KDim]);
   tileLayout *= LinearLayout::identity1D(numReps[repDimNonK], kRegister,
-                                         outDimNames[dimNonK]);
+                                         outDimNames[nonKDim]);
   if (rank == 3)
     tileLayout *=
         LinearLayout::identity1D(numReps[0], kRegister, outDimNames[0]);
diff --git a/third_party/intel/lib/TritonIntelGPUToLLVM/ConvertLayoutOpToLLVM.cpp b/third_party/intel/lib/TritonIntelGPUToLLVM/ConvertLayoutOpToLLVM.cpp
@@ -1,7 +1,6 @@
 #include "PatternTritonGPUOpToLLVM.h"
 #include "TargetInfo.h"
 #include "Utility.h"
-#include <iostream>
 
 #include "intel/include/Analysis/Utility.h"
 #include "intel/include/Dialect/TritonIntelGPU/IR/Dialect.h"
diff --git a/third_party/intel/lib/TritonIntelGPUToLLVM/ConvertLayoutOpToLLVM/SharedToDotOperandDPAS.cpp b/third_party/intel/lib/TritonIntelGPUToLLVM/ConvertLayoutOpToLLVM/SharedToDotOperandDPAS.cpp
@@ -1,8 +1,6 @@
 #include "../TritonGPUToLLVMBase.h"
 #include "../Utility.h"
 #include "mlir/Dialect/LLVMIR/LLVMTypes.h"
-#include "mlir/Support/LLVM.h"
-#include "triton/Dialect/TritonGPU/IR/Dialect.h"
 #include "llvm/Support/ErrorHandling.h"
 
 using ValueTable = std::map<std::array<int, 3>, Value>;
diff --git a/third_party/intel/lib/TritonIntelGPUToLLVM/LoadStoreOpToLLVM.cpp b/third_party/intel/lib/TritonIntelGPUToLLVM/LoadStoreOpToLLVM.cpp
@@ -349,7 +349,6 @@ struct PrefetchOpConversion
     Type eltTy = tensorType.getElementType();
     const ArrayRef<int64_t> shapeRef = tensorType.getShape();
     SmallVector<int64_t> tensorShape{shapeRef.begin(), shapeRef.end()};
-    assert(tensorShape.size() == 2 && "Only 2D tensors are prefetch supported");
 
     if (!memoryRowMajor) {
       // Swap the shape to make it row major and then get the tiling
diff --git a/third_party/intel/lib/TritonIntelGPUToLLVM/Utility.h b/third_party/intel/lib/TritonIntelGPUToLLVM/Utility.h
@@ -16,7 +16,6 @@
 #include "triton/Conversion/TritonGPUToLLVM/Utility.h"
 #include "triton/Dialect/Triton/IR/Utility.h"
 #include "llvm/Support/ErrorHandling.h"
-#include <iostream>
 
 #define DEBUG_TYPE "ttgpu_to_llvm"
 
@@ -656,9 +655,7 @@ inline DenseMap<unsigned, Value> getSwizzledSharedPtrs(
   // Order
   auto inOrder = triton::gpu::getOrder(srcEncoding);
   auto outOrder = triton::gpu::getOrder(resSharedLayout);
-  unsigned rank = outOrder.size();
   assert(maxPhase == 1 ||
-         //  outVec * maxPhase <= srcShape[outOrder[rank-2]] &&
          outVec * maxPhase <= srcShape[outOrder[0]] &&
              "Swizzling would generate out of bounds memory accesses");
   // Tensor indices held by the current thread, as LLVM values