try o0

dchigarev · dchigarev · commit 6163213c801d · 2025-02-18T12:00:42.000Z
Signed-off-by: dchigarev &lt;dmitry.chigarev@intel.com&gt;
diff --git a/lib/Conversion/TritonGPUToLLVM/Utility.cpp b/lib/Conversion/TritonGPUToLLVM/Utility.cpp
@@ -666,7 +666,7 @@ SmallVector<Value> loadSharedToDistributed(RankedTensorType dstTy,
             assert(vecTy.getNumElements() % 64 == 0);
             for (int i = 0; i < vecTy.getNumElements(); i+=64) {
                 auto smallVecTy = vec_ty(elemLlvmTy, 64);
-                auto vecAddrNew = gep(vecAddr.getType(), i32_ty, vecAddr, SmallVector<Value>({i32_val(i)}));
+                auto vecAddrNew = gep(vecAddr.getType(), i32_ty, vecAddr, SmallVector<Value>({i32_val(i)}), true);
                 auto vecVal = load(smallVecTy, vecAddrNew);
                 vecVal.setAlignment(smallVecTy.getNumElements() *
                                     elemLlvmTy.getIntOrFloatBitWidth() / 8);
diff --git a/python/triton/compiler/compiler.py b/python/triton/compiler/compiler.py
@@ -298,7 +298,7 @@ def compile(src, target=None, options=None):
     metadata_group[metadata_filename] = fn_cache_manager.put(json.dumps(metadata, default=vars), metadata_filename,
                                                              binary=False)
     fn_cache_manager.put_group(metadata_filename, metadata_group)
-    if os.environ.get("TR_PRINT_IR", "0") == "1":
+    if os.environ.get("TR_PRINT_IR", "1") == "1":
         print("printing IR...")
         for name, path in metadata_group.items():
             print(f"==================== {name} ======================", flush=True)
diff --git a/third_party/intel/backend/compiler.py b/third_party/intel/backend/compiler.py
@@ -132,11 +132,10 @@ def __init__(self, target: tuple) -> None:
             raise TypeError("target.arch is not a dict")
         dirname = os.path.dirname(os.path.realpath(__file__))
         mod = compile_module_from_src(Path(os.path.join(dirname, "arch_parser.c")).read_text(), "arch_utils")
-        # breakpoint()
-        # self.device_arch = mod.parse_device_arch(target.arch.get('architecture', 0))
-        # self.properties = self.parse_target(target.arch)
-        self.device_arch = "dg2"
-        self.properties = {'name': 'Intel(R) Arc(TM) A770 Graphics', 'platform_name': 'Intel(R) oneAPI Unified Runtime over Level-Zero', 'vendor': 'Intel(R) Corporation', 'version': '12.55.8', 'gpu_eu_count': 512, 'gpu_subslice_count': 32, 'max_work_group_size': 1024, 'max_num_sub_groups': 128, 'sub_group_sizes': [8, 16, 32], 'has_fp64': False, 'has_subgroup_matrix_multiply_accumulate': True, 'has_subgroup_matrix_multiply_accumulate_tensor_float32': False, 'has_subgroup_2d_block_io': False, 'has_bfloat16_conversions': True}
+        self.device_arch = mod.parse_device_arch(target.arch.get('architecture', 0))
+        self.properties = self.parse_target(target.arch)
+        # self.device_arch = "dg2"
+        # self.properties = {'name': 'Intel(R) Arc(TM) A770 Graphics', 'platform_name': 'Intel(R) oneAPI Unified Runtime over Level-Zero', 'vendor': 'Intel(R) Corporation', 'version': '12.55.8', 'gpu_eu_count': 512, 'gpu_subslice_count': 32, 'max_work_group_size': 1024, 'max_num_sub_groups': 128, 'sub_group_sizes': [8, 16, 32], 'has_fp64': False, 'has_subgroup_matrix_multiply_accumulate': True, 'has_subgroup_matrix_multiply_accumulate_tensor_float32': False, 'has_subgroup_2d_block_io': False, 'has_bfloat16_conversions': True}
         print("DEVICE PROPS:")
         print(self.device_arch)
         print(self.properties)
@@ -331,7 +330,7 @@ def make_llir(src, metadata, options):
         if options.extern_libs:
             paths = [path for (name, path) in options.extern_libs]
             llvm.link_extern_libs(llvm_mod, paths)
-        intel.optimize_module(llvm_mod, llvm.OPTIMIZE_O3)
+        intel.optimize_module(llvm_mod, llvm.OPTIMIZE_O0)
         intel.post_process_llir(llvm_mod)
 
         # Get some metadata