[FRONTEND] Remove hardcoded warp size (#7253)

zahimoud · web-flow · commit 72764da50929 · 2025-06-20T19:49:26.000Z
diff --git a/python/triton/experimental/gluon/_runtime.py b/python/triton/experimental/gluon/_runtime.py
@@ -31,14 +31,9 @@ def make_ir(self, options, codegen_fns, module_map, context):
         module.set_attr("ttg.target", builder.get_string_attr(target))
         module.set_attr("ttg.num-warps", builder.get_int32_attr(options.num_warps))
         module.set_attr("ttg.num-ctas", builder.get_int32_attr(options.num_ctas))
+        module.set_attr("ttg.threads-per-warp", builder.get_int32_attr(options.warp_size))
 
         is_cuda = options.backend_name == "cuda"
-
-        if is_cuda:
-            module.set_attr("ttg.threads-per-warp", builder.get_int32_attr(32))
-        else:
-            module.set_attr("ttg.threads-per-warp", builder.get_int32_attr(64))
-
         if is_cuda and options.maxnreg is not None:
             module.set_attr("ttg.maxnreg", builder.get_int32_attr(options.maxnreg))
 
diff --git a/third_party/nvidia/backend/compiler.py b/third_party/nvidia/backend/compiler.py
@@ -101,6 +101,7 @@ class CUDAOptions:
     num_warps: int = 4
     num_ctas: int = 1
     num_stages: int = 3
+    warp_size: int = 32
     # maxnreg corresponds to the ptx parameter .maxnreg, which controls the
     # maximum number of 32-bit registers used by one thread.
     maxnreg: Optional[int] = None