[Gluon] Expose ttg.warp_specialize (#6989)

Mogball · web-flow · commit d0d6a4b5e092 · 2025-05-29T15:40:57.000-07:00
📚 Stack PRs 📚 1. triton-lang/triton#6988 2. ➡️ triton-lang/triton#6989 This PR adds a function to expose `ttg.warp_specialize` as a list of functions, where the default function is allowed to return values that are passed through the default region. It also moves the filecheck testing to a common package to be used across various unit tests.
diff --git a/include/triton/Dialect/TritonGPU/IR/TritonGPUOps.td b/include/triton/Dialect/TritonGPU/IR/TritonGPUOps.td
@@ -468,7 +468,9 @@ def TTG_WarpSpecializeOp : TTG_Op<"warp_specialize", [
   let builders = [
     OpBuilder<(ins "TypeRange":$resultTypes,
                    "ArrayRef<int32_t>":$partitionNumWarps,
-                   "unsigned":$numPartitionRegions)>
+                   "unsigned":$numPartitionRegions)>,
+    OpBuilder<(ins "TypeRange":$resultTypes, "ValueRange":$explicitCaptures,
+                   "ArrayRef<int32_t>":$partitionNumWarps)>,
   ];
 
   let hasVerifier = 1;
diff --git a/lib/Dialect/TritonGPU/IR/Ops.cpp b/lib/Dialect/TritonGPU/IR/Ops.cpp
@@ -886,6 +886,13 @@ void WarpSpecializeOp::build(OpBuilder &builder, OperationState &state,
                                              partitionNumRegions);
 }
 
+void WarpSpecializeOp::build(OpBuilder &builder, OperationState &state,
+                             TypeRange resultTypes, ValueRange explicitCaptures,
+                             ArrayRef<int32_t> partitionNumWarps) {
+  build(builder, state, resultTypes, explicitCaptures, partitionNumWarps, {},
+        {}, {});
+}
+
 ParseResult WarpSpecializeOp::parse(OpAsmParser &p, OperationState &result) {
   SmallVector<OpAsmParser::UnresolvedOperand> operands;
   SMLoc operandLoc = p.getCurrentLocation();
diff --git a/python/src/gluon_ir.cc b/python/src/gluon_ir.cc
@@ -15,6 +15,8 @@ namespace ttg = triton::gpu;
 struct GluonOpBuilder : public TritonOpBuilder {};
 
 void init_gluon_ir(py::module &&m) {
+  using ret = py::return_value_policy;
+
   py::class_<GluonOpBuilder, TritonOpBuilder>(
       m, "GluonOpBuilder", py::module_local(), py::dynamic_attr())
       .def(py::init<MLIRContext *>())
@@ -82,5 +84,36 @@ void init_gluon_ir(py::module &&m) {
       .def("create_local_load",
            [](GluonOpBuilder &self, Type resultTy, Value memDesc) -> Value {
              return self.create<ttg::LocalLoadOp>(resultTy, memDesc);
-           });
+           })
+
+      .def("create_warp_return",
+           [](GluonOpBuilder &self) -> Operation * {
+             return self.create<ttg::WarpReturnOp>();
+           })
+      .def("create_warp_yield",
+           [](GluonOpBuilder &self, std::vector<Value> &values) -> Operation * {
+             return self.create<ttg::WarpYieldOp>(values);
+           })
+      .def("create_warp_specialize_partitions",
+           [](GluonOpBuilder &self, int numPartitions) -> Operation * {
+             return self.create<ttg::WarpSpecializePartitionsOp>(numPartitions);
+           })
+      .def("create_warp_specialize", [](GluonOpBuilder &self,
+                                        std::vector<Type> &resultTypes,
+                                        std::vector<Value> &explicitCaptures,
+                                        std::vector<int> &partitionNumWarps) {
+        return self.create<ttg::WarpSpecializeOp>(resultTypes, explicitCaptures,
+                                                  partitionNumWarps);
+      });
+
+  py::class_<ttg::WarpSpecializeOp, OpState>(m, "WarpSpecializeOp",
+                                             py::module_local())
+      .def("get_default_region", &ttg::WarpSpecializeOp::getDefaultRegion,
+           ret::reference)
+      .def("get_partition_op_holder",
+           &ttg::WarpSpecializeOp::getPartitionOpHolder, ret::reference)
+      .def("set_requested_registers", [](ttg::WarpSpecializeOp &self,
+                                         std::vector<int> &requestedRegisters) {
+        self.setRequestedRegisters(requestedRegisters);
+      });
 }
diff --git a/python/src/ir.cc b/python/src/ir.cc
@@ -382,7 +382,11 @@ void init_triton_ir(py::module &&m) {
       .def("get_parent_region", &Region::getParentRegion, ret::reference)
       .def("size", [](Region &self) { return self.getBlocks().size(); })
       .def("empty", &Region::empty)
-      .def("id", [](Region &self) { return (uint64_t)&self; });
+      .def("id", [](Region &self) { return (uint64_t)&self; })
+      .def("push_back",
+           [](Region &self, Block *block) { self.push_back(block); })
+      .def("push_front",
+           [](Region &self, Block *block) { self.push_front(block); });
 
   py::class_<Block>(m, "block", py::module_local())
       .def("arg",
@@ -492,13 +496,23 @@ void init_triton_ir(py::module &&m) {
              self->print(os, printingFlags);
              return str;
            })
+      .def("str_nodebug",
+           [](OpState &self) -> std::string {
+             std::string str;
+             llvm::raw_string_ostream os(str);
+             self->print(os);
+             return str;
+           })
       .def("append_operand",
            [](OpState &self, Value &val) {
              self->insertOperands(self->getNumOperands(), val);
            })
-      .def("verify", [](OpState &self) -> bool {
-        return succeeded(verify(self.getOperation()));
-      });
+      .def("verify",
+           [](OpState &self) -> bool {
+             return succeeded(verify(self.getOperation()));
+           })
+      .def("get_operation", [](OpState &self) { return self.getOperation(); });
+
   // scf Ops
   py::class_<scf::ForOp, OpState>(m, "ForOp", py::module_local())
       .def("get_induction_var", &scf::ForOp::getInductionVar);
diff --git a/python/test/gluon/test_frontend.py b/python/test/gluon/test_frontend.py
@@ -3,6 +3,8 @@
 from triton import knobs
 from triton.experimental import gluon
 from triton.experimental.gluon import language as ttgl
+from triton._filecheck import filecheck_test
+import triton.language as tl
 
 
 @gluon.jit
@@ -68,3 +70,62 @@ def test_shared_memory(fresh_knobs):
 } loc(#loc)
 #loc = loc(unknown)
 """)
+
+
+@gluon.jit
+def warp_specialize_default(a, b):
+    return b, a
+
+
+@gluon.jit
+def warp_specialize_worker0(a, b):
+    pass
+
+
+@gluon.jit
+def warp_specialize_worker1(a, b):
+    pass
+
+
+@tl.core._aggregate
+class Pair:
+    first: tl.tensor
+    second: tl.tensor
+
+    def __init__(self, first, second):
+        self.first = first
+        self.second = second
+
+
+@gluon.jit
+def anchor(x):
+    pass
+
+
+@filecheck_test
+@gluon.jit
+def test_warp_specialize():
+    # CHECK-LABEL: tt.func public @test_warp_specialize
+    # CHECK-NEXT:    [[A:%.*]] = tt.make_range {end = 1 : i32, start = 0 : i32}
+    # CHECK-NEXT:    [[B:%.*]] = tt.make_range {end = 2 : i32, start = 0 : i32}
+    # CHECK-NEXT:    [[C:%.*]] = tt.make_range {end = 4 : i32, start = 0 : i32}
+    # CHECK-NEXT:    [[OUTS:%.*]]:3 = ttg.warp_specialize([[A]], [[B]], [[C]]) {{.*}}requestedRegisters = array<i32: 24, 48>
+    # CHECK-NEXT:    default {
+    # CHECK-NEXT:      [[RESULTS:%.*]]:3 = tt.call @"warp_specialize_default{{.*}}"([[A]], [[B]], [[C]])
+    # CHECK-NEXT:      warp_yield [[RESULTS]]#0, [[RESULTS]]#1, [[RESULTS]]#2
+    # CHECK-NEXT:    }
+    # CHECK-NEXT:    partition0(%arg0: tensor<1xi32>, %arg1: tensor<2xi32>, %arg2: tensor<4xi32>) num_warps(4) {
+    # CHECK-NEXT:      call @"warp_specialize_worker0{{.*}}"(%arg0, %arg1, %arg2)
+    # CHECK-NEXT:      warp_return
+    # CHECK-NEXT:    }
+    # CHECK-NEXT:    partition1(%arg0: tensor<1xi32>, %arg1: tensor<2xi32>, %arg2: tensor<4xi32>) num_warps(4) {
+    # CHECK-NEXT:      call @"warp_specialize_worker1{{.*}}"(%arg0, %arg1, %arg2)
+    # CHECK-NEXT:      warp_return
+    # CHECK-NEXT:    }
+    # CHECK-NEXT:    call @anchor{{.*}}([[OUTS]]#0)
+    # CHECK-NEXT:    call @"anchor{{.*}}"([[OUTS]]#1, [[OUTS]]#2)
+    pair = Pair(tl.arange(0, 1), tl.arange(0, 2))
+    a, b = ttgl.warp_specialize((pair, tl.arange(0, 4)), warp_specialize_default,
+                                [warp_specialize_worker0, warp_specialize_worker1], [4, 4], [24, 48])
+    anchor(a)
+    anchor(b)
diff --git a/python/test/unit/language/test_frontend.py b/python/test/unit/language/test_frontend.py
@@ -1,116 +1,17 @@
-import sys
-import os
-import io
-import inspect
-
-from filecheck.options import Options
-from filecheck.finput import FInput
-from filecheck.parser import Parser, pattern_for_opts
-from filecheck.matcher import Matcher
-
 import triton
 import triton.language as tl
-from triton.compiler import ASTSource, make_backend
-from triton.backends.compiler import GPUTarget
-from triton._C.libtriton import ir
-
-import pytest
+from triton._filecheck import filecheck_test
 
 # ===-----------------------------------------------------------------------===#
-# filecheck_test
+# Unit Tests
 # ===-----------------------------------------------------------------------===#
 
-# Stub target for testing the frontend.
-stub_target = GPUTarget("cuda", 100, 32)
-stub_backend = make_backend(stub_target)
-
-llvm_bin_dir = os.path.join(os.path.dirname(sys.executable), "bin")
-filecheck_path = os.path.join(llvm_bin_dir, "FileCheck")
-
-
-def run_filecheck(name, module_str, check_template):
-    options = Options(match_filename=name)
-    fin = FInput(name, module_str)
-    ops = io.StringIO(check_template)
-    parser = Parser(options, ops, *pattern_for_opts(options))
-    matcher = Matcher(options, fin, parser)
-    matcher.stderr = io.StringIO()
-    if matcher.run() != 0:
-        raise ValueError(matcher.stderr.getvalue())
-
-
-def run_parser(kernel_fn):
-    sigkeys = [x.name for x in kernel_fn.params]
-    sigvals = [f"arg{i}" for i in range(len(sigkeys))]
-    signature = {k: v for (k, v) in zip(sigkeys, sigvals)}
-    src = ASTSource(fn=kernel_fn, signature=signature)
-
-    context = ir.context()
-    ir.load_dialects(context)
-    stub_backend.load_dialects(context)
-
-    extra_options = src.parse_options()
-    options = stub_backend.parse_options(dict(**extra_options))
-    codegen_fns = stub_backend.get_codegen_implementation(options)
-    module_map = stub_backend.get_module_map()
-    return src.make_ir(options, codegen_fns, module_map, context)
-
-
-def run_filecheck_test(kernel_fn):
-    assert isinstance(kernel_fn, triton.runtime.JITFunction)
-    check_template = inspect.getsource(kernel_fn.fn)
-    if check_template is None:
-        raise ValueError("kernel function must have a docstring with FileCheck template")
-    mlir_module = run_parser(kernel_fn)
-
-    run_filecheck("placeholder", str(mlir_module), check_template)
-
 
 @triton.jit
 def anchor(v):
     pass
 
 
-# Smoke test to make sure filecheck is working correctly.
-def test_filecheck_positive():
-
-    @triton.jit
-    def test_kernel():
-        # CHECK-LABEL: test_kernel
-        scalar = 42
-        # CHECK: %c42_i32 = arith.constant 42 : i32
-        # CHECK-NEXT: call @anchor{{.*}}(%c42_i32) : (i32) -> ()
-        anchor(scalar)
-
-    run_filecheck_test(test_kernel)
-
-
-def test_filecheck_negative():
-
-    @triton.jit
-    def test_kernel():
-        # CHECK-LABEL: test_kernel
-        scalar = 11
-        # CHECK: %c42_i32
-        anchor(scalar)
-
-    with pytest.raises(ValueError, match="Couldn't match \"%c42_i32\""):
-        run_filecheck_test(test_kernel)
-
-
-def filecheck_test(fn):
-
-    def test_fn():
-        run_filecheck_test(fn)
-
-    return test_fn
-
-
-# ===-----------------------------------------------------------------------===#
-# Unit Tests
-# ===-----------------------------------------------------------------------===#
-
-
 @tl.core._aggregate
 class Pair:
     first: tl.tensor
diff --git a/python/test/unit/test_filecheck.py b/python/test/unit/test_filecheck.py
@@ -0,0 +1,36 @@
+import pytest
+import triton
+
+from triton._filecheck import run_filecheck_test
+
+
+@triton.jit
+def anchor(v):
+    pass
+
+
+# Smoke test to make sure filecheck is working correctly.
+def test_filecheck_positive():
+
+    @triton.jit
+    def test_kernel():
+        # CHECK-LABEL: test_kernel
+        scalar = 42
+        # CHECK: %c42_i32 = arith.constant 42 : i32
+        # CHECK-NEXT: call @anchor{{.*}}(%c42_i32) : (i32) -> ()
+        anchor(scalar)
+
+    run_filecheck_test(test_kernel)
+
+
+def test_filecheck_negative():
+
+    @triton.jit
+    def test_kernel():
+        # CHECK-LABEL: test_kernel
+        scalar = 11
+        # CHECK: %c42_i32
+        anchor(scalar)
+
+    with pytest.raises(ValueError, match="Couldn't match \"%c42_i32\""):
+        run_filecheck_test(test_kernel)
diff --git a/python/triton/__init__.py b/python/triton/__init__.py
@@ -25,6 +25,7 @@
 from . import language
 from . import testing
 from . import tools
+from ._filecheck import run_filecheck_test, filecheck_test, run_parser
 
 must_use_result = language.core.must_use_result
 
@@ -51,6 +52,9 @@
     "TritonError",
     "testing",
     "tools",
+    "run_filecheck_test",
+    "filecheck_test",
+    "run_parser",
 ]
 
 # -------------------------------------
diff --git a/python/triton/_filecheck.py b/python/triton/_filecheck.py
diff --git a/python/triton/experimental/gluon/language/_core.py b/python/triton/experimental/gluon/language/_core.py
diff --git a/python/triton/experimental/gluon/language/_semantic.py b/python/triton/experimental/gluon/language/_semantic.py