Test

victor-eds · victor-eds · commit 8aa0ea599934 · 2024-11-14T10:32:08.000Z
diff --git a/third_party/intel/backend/compiler.py b/third_party/intel/backend/compiler.py
@@ -253,7 +253,7 @@ def make_ttgir(mod, metadata, opt, properties):
         passes.ttgpuir.add_optimize_dot_operands(pm, True)
         intel.passes.ttgpuir.add_optimize_reduction_locality(pm)
         intel.passes.ttgpuir.add_optimize_elementwise_parallelism(pm)
-        intel.passes.ttgpuir.add_remove_layout_conversions(pm)
+        #intel.passes.ttgpuir.add_remove_layout_conversions(pm)
         intel.passes.ttgpuir.add_reduce_data_duplication(pm)
         passes.ttgpuir.add_reorder_instructions(pm)
         passes.common.add_cse(pm)
diff --git a/third_party/intel/lib/TritonIntelGPUTransforms/OptimizeElementwiseParallelism.cpp b/third_party/intel/lib/TritonIntelGPUTransforms/OptimizeElementwiseParallelism.cpp
@@ -142,10 +142,12 @@ RankedTensorType getOptimizedType(RankedTensorType type,
   [[maybe_unused]] unsigned ctaSplitNum = product(encoding.getCTASplitNum());
   assert(ctaSplitNum == 1 && "Expecting single CTA");
 
+  llvm::errs() << linearLayout << "\n";
+
   RankedTensorType::Builder typeBuilder(type);
   int32_t numWorkGroupPos = linearLayout.getInDimSizeLog2(kWarp);
   unsigned sizePerThread =
-      numWorkGroupPos == 0 ? 1 : linearLayout.getBasis(kWarp, 0)[0];
+      numWorkGroupPos == 0 ? 1 : linearLayout.getBasis(kWarp, 0)[0] / threadsPerWarp;
   CTALayoutAttr ctaLayout = CTALayoutAttr::getDefault(builder.getContext(), 1);
   auto newEncoding = builder.getAttr<BlockedEncodingAttr>(
       sizePerThread, threadsPerWarp, warpsPerCTA, /*order=*/0, ctaLayout);