Integrate

victor-eds · victor-eds · commit 123f8f1519fc · 2024-10-23T15:45:36.000+01:00
diff --git a/third_party/intel/backend/compiler.py b/third_party/intel/backend/compiler.py
@@ -245,6 +245,7 @@ def make_ttgir(mod, metadata, opt, properties):
         passes.common.add_cse(pm)
         passes.ttgpuir.add_prefetch(pm)
         passes.ttgpuir.add_optimize_dot_operands(pm, True)
+        intel.passes.ttgpuir.add_optimize_reduction_locality(pm)
         intel.passes.ttgpuir.add_remove_layout_conversions(pm)
         intel.passes.ttgpuir.add_reduce_data_duplication(pm)
         passes.ttgpuir.add_reorder_instructions(pm)
diff --git a/third_party/intel/lib/TritonIntelGPUToLLVM/ConvertLayoutOpToLLVM.cpp b/third_party/intel/lib/TritonIntelGPUToLLVM/ConvertLayoutOpToLLVM.cpp
@@ -486,8 +486,20 @@ struct ConvertLayoutOpUsingLinearLayoutsConversion
     constexpr std::size_t laneIndex = 0;
     constexpr std::size_t registerIndex = 1;
     int32_t size = conversion->getInDimSize(kLane);
+    std::vector<std::vector<int32_t>> registerBases =
+      buildBasis(size, registerIndex);
+    {
+      // Populate register bases for N > 8.
+      std::vector<int32_t> base(2);
+      for (int32_t i = registerBases.back()[registerIndex] * 2,
+	     n = conversion->getInDimSize(kRegister); i < n;
+           i *= 2) {
+        base.front() = i;
+        registerBases.push_back(base);
+      }
+    }
     std::array<std::pair<StringAttr, std::vector<std::vector<int32_t>>>, 2>
-        bases{{{kRegister, buildBasis(size, registerIndex)},
+      bases{{{kRegister, std::move(registerBases)},
                {kLane, buildBasis(size, laneIndex)}}};
     std::array<StringAttr, 2> outDimNames{kRegister, kLane};
     return conversion == LinearLayout(bases, outDimNames);
diff --git a/third_party/intel/triton_xpu.cc b/third_party/intel/triton_xpu.cc
@@ -99,6 +99,8 @@ void init_triton_intel_passes_ttgpuir(py::module &&m) {
                      gpu::intel::createTritonIntelGPUReduceDataDuplication);
   ADD_PASS_WRAPPER_0("add_materialize_block_pointer",
                      gpu::intel::createTritonIntelGPUMaterializeBlockPointer);
+  ADD_PASS_WRAPPER_0("add_optimize_reduction_locality",
+                     gpu::intel::createTritonIntelGPUOptimizeReductionLocality);
 }
 
 void init_triton_intel(py::module &&m) {

Original file line number	Diff line number	Diff line change
`@@ -99,6 +99,8 @@ void init_triton_intel_passes_ttgpuir(py::module &&m) {`
`99`	`99`	`gpu::intel::createTritonIntelGPUReduceDataDuplication);`
`100`	`100`	`ADD_PASS_WRAPPER_0("add_materialize_block_pointer",`
`101`	`101`	`gpu::intel::createTritonIntelGPUMaterializeBlockPointer);`
	`102`	`+ ADD_PASS_WRAPPER_0("add_optimize_reduction_locality",`
	`103`	`+ gpu::intel::createTritonIntelGPUOptimizeReductionLocality);`
`102`	`104`	`}`
`103`	`105`
`104`	`106`	`void init_triton_intel(py::module &&m) {`