remove 'kernel_name'

anmyachev · anmyachev · commit 5710fd1974ca · 2024-12-21T11:05:09.000Z
Signed-off-by: Anatoly Myachev &lt;anatoly.myachev@intel.com&gt;
diff --git a/benchmarks/triton_kernels_benchmark/benchmark_testing.py b/benchmarks/triton_kernels_benchmark/benchmark_testing.py
@@ -160,10 +160,10 @@ def extract_kernels(funcs):
     raise NotImplementedError(f"BENCHMARKING_METHOD: {BENCHMARKING_METHOD} isn't implemented")
 
 
-def make_do_bench_for_autotune(kernel_name: str):
+def make_do_bench_for_autotune():
 
     def autotuner_do_bench(*args, **kwargs):
-        return do_bench(*args, n_warmup=10, n_repeat=10, kernel_name=kernel_name, **kwargs)
+        return do_bench(*args, n_warmup=10, n_repeat=10, **kwargs)
 
     return autotuner_do_bench
 
diff --git a/benchmarks/triton_kernels_benchmark/flash_attention_fwd_benchmark.py b/benchmarks/triton_kernels_benchmark/flash_attention_fwd_benchmark.py
@@ -161,8 +161,7 @@ def _attn_fwd(Q, K, V, sm_scale, M, Out,  #
     for w in [8, 16, 32] \
     ]
 
-tuner = triton.autotune(configs, key=['N_CTX', 'BLOCK_DMODEL'],
-                        do_bench=benchmark_suit.make_do_bench_for_autotune('_attn_fwd'))
+tuner = triton.autotune(configs, key=['N_CTX', 'BLOCK_DMODEL'], do_bench=benchmark_suit.make_do_bench_for_autotune())
 tune_attn_fwd = tuner(_attn_fwd)
 
 
diff --git a/benchmarks/triton_kernels_benchmark/fused_softmax.py b/benchmarks/triton_kernels_benchmark/fused_softmax.py
@@ -50,7 +50,7 @@ def naive_softmax(x):
         triton.Config({"threads_per_warp": 16}, num_warps=4),
     ],
     key=["BLOCK_SIZE_X", "BLOCK_SIZE_Y"],
-    do_bench=benchmark_suit.make_do_bench_for_autotune(kernel_name="softmax_kernel"),
+    do_bench=benchmark_suit.make_do_bench_for_autotune(),
 )
 @triton.jit
 def softmax_kernel(output_ptr, input_ptr, input_row_stride, output_row_stride, n_cols, BLOCK_SIZE_X: tl.constexpr,
diff --git a/benchmarks/triton_kernels_benchmark/gemm_benchmark.py b/benchmarks/triton_kernels_benchmark/gemm_benchmark.py
@@ -39,7 +39,7 @@
             num_stages=s, num_warps=32) for s in [2, 3]
     ],
     key=['M', 'N', 'K'],
-    do_bench=benchmark_suit.make_do_bench_for_autotune(kernel_name='matmul_kernel_with_block_pointers'),
+    do_bench=benchmark_suit.make_do_bench_for_autotune(),
 )
 @triton.jit
 def matmul_kernel_with_block_pointers(
@@ -113,7 +113,7 @@ def matmul_kernel_with_block_pointers(
             num_stages=s, num_warps=4) for s in [2]
     ],
     key=['M', 'N', 'K'],
-    do_bench=benchmark_suit.make_do_bench_for_autotune(kernel_name='matmul_kernel_with_block_pointers_batched'),
+    do_bench=benchmark_suit.make_do_bench_for_autotune(),
 )
 @triton.jit
 def matmul_kernel_with_block_pointers_batched(
diff --git a/benchmarks/triton_kernels_benchmark/gemm_postop_addmatrix_benchmark.py b/benchmarks/triton_kernels_benchmark/gemm_postop_addmatrix_benchmark.py
@@ -32,7 +32,7 @@
             num_stages=2, num_warps=32),
     ],
     key=['M', 'N', 'K'],
-    do_bench=benchmark_suit.make_do_bench_for_autotune(kernel_name='matmul_kernel_with_block_pointers'),
+    do_bench=benchmark_suit.make_do_bench_for_autotune(),
 )
 @triton.jit
 def matmul_kernel_with_block_pointers(
@@ -107,7 +107,7 @@ def matmul_kernel_with_block_pointers(
             num_stages=2, num_warps=4),
     ],
     key=['M', 'N', 'K'],
-    do_bench=benchmark_suit.make_do_bench_for_autotune(kernel_name='matmul_kernel_with_block_pointers_batched'),
+    do_bench=benchmark_suit.make_do_bench_for_autotune(),
 )
 @triton.jit
 def matmul_kernel_with_block_pointers_batched(
diff --git a/benchmarks/triton_kernels_benchmark/gemm_postop_gelu_benchmark.py b/benchmarks/triton_kernels_benchmark/gemm_postop_gelu_benchmark.py
@@ -51,7 +51,7 @@ def gelu(x):
             num_stages=2, num_warps=32),
     ],
     key=['M', 'N', 'K'],
-    do_bench=benchmark_suit.make_do_bench_for_autotune(kernel_name='matmul_kernel_with_block_pointers'),
+    do_bench=benchmark_suit.make_do_bench_for_autotune(),
 )
 @triton.jit
 def matmul_kernel_with_block_pointers(
@@ -120,7 +120,7 @@ def matmul_kernel_with_block_pointers(
             num_stages=2, num_warps=4),
     ],
     key=['M', 'N', 'K'],
-    do_bench=benchmark_suit.make_do_bench_for_autotune(kernel_name='matmul_kernel_with_block_pointers_batched'),
+    do_bench=benchmark_suit.make_do_bench_for_autotune(),
 )
 @triton.jit
 def matmul_kernel_with_block_pointers_batched(
diff --git a/benchmarks/triton_kernels_benchmark/gemm_preop_exp_benchmark.py b/benchmarks/triton_kernels_benchmark/gemm_preop_exp_benchmark.py
@@ -33,7 +33,7 @@
             num_stages=2, num_warps=32),
     ],
     key=['M', 'N', 'K'],
-    do_bench=benchmark_suit.make_do_bench_for_autotune(kernel_name='matmul_kernel_with_block_pointers'),
+    do_bench=benchmark_suit.make_do_bench_for_autotune(),
 )
 @triton.jit
 def matmul_kernel_with_block_pointers(
@@ -105,7 +105,7 @@ def matmul_kernel_with_block_pointers(
             num_stages=2, num_warps=4),
     ],
     key=['M', 'N', 'K'],
-    do_bench=benchmark_suit.make_do_bench_for_autotune(kernel_name='matmul_kernel_with_block_pointers_batched'),
+    do_bench=benchmark_suit.make_do_bench_for_autotune(),
 )
 @triton.jit
 def matmul_kernel_with_block_pointers_batched(
diff --git a/benchmarks/triton_kernels_benchmark/gemm_splitk_benchmark.py b/benchmarks/triton_kernels_benchmark/gemm_splitk_benchmark.py
@@ -12,7 +12,7 @@
                       num_stages=4, num_warps=32),
     ],
     key=['M', 'N', 'K'],
-    do_bench=benchmark_suit.make_do_bench_for_autotune(kernel_name='_kernel'),
+    do_bench=benchmark_suit.make_do_bench_for_autotune(),
 )
 @triton.jit
 def _kernel(A, B, C,  #
diff --git a/benchmarks/triton_kernels_benchmark/gemm_streamk_benchmark.py b/benchmarks/triton_kernels_benchmark/gemm_streamk_benchmark.py
@@ -104,7 +104,7 @@ def mac_loop(
             num_stages=2, num_warps=32),
     ],
     key=['M', 'N', 'K'],
-    do_bench=benchmark_suit.make_do_bench_for_autotune(kernel_name='first_wave'),
+    do_bench=benchmark_suit.make_do_bench_for_autotune(),
 )
 @triton.jit
 def first_wave(
@@ -141,7 +141,7 @@ def first_wave(
             num_stages=2, num_warps=32),
     ],
     key=['M', 'N', 'K'],
-    do_bench=benchmark_suit.make_do_bench_for_autotune(kernel_name='full_tiles'),
+    do_bench=benchmark_suit.make_do_bench_for_autotune(),
 )
 @triton.jit
 def full_tiles(

Original file line number	Diff line number	Diff line change
`@@ -161,8 +161,7 @@ def _attn_fwd(Q, K, V, sm_scale, M, Out, #`
`161`	`161`	`for w in [8, 16, 32] \`
`162`	`162`	`]`
`163`	`163`
`164`		`-tuner = triton.autotune(configs, key=['N_CTX', 'BLOCK_DMODEL'],`
`165`		`- do_bench=benchmark_suit.make_do_bench_for_autotune('_attn_fwd'))`
	`164`	`+tuner = triton.autotune(configs, key=['N_CTX', 'BLOCK_DMODEL'], do_bench=benchmark_suit.make_do_bench_for_autotune())`
`166`	`165`	`tune_attn_fwd = tuner(_attn_fwd)`
`167`	`166`
`168`	`167`
Original file line number	Diff line number	Diff line change
`@@ -50,7 +50,7 @@ def naive_softmax(x):`
`50`	`50`	`triton.Config({"threads_per_warp": 16}, num_warps=4),`
`51`	`51`	`],`
`52`	`52`	`key=["BLOCK_SIZE_X", "BLOCK_SIZE_Y"],`
`53`		`- do_bench=benchmark_suit.make_do_bench_for_autotune(kernel_name="softmax_kernel"),`
	`53`	`+ do_bench=benchmark_suit.make_do_bench_for_autotune(),`
`54`	`54`	`)`
`55`	`55`	`@triton.jit`
`56`	`56`	`def softmax_kernel(output_ptr, input_ptr, input_row_stride, output_row_stride, n_cols, BLOCK_SIZE_X: tl.constexpr,`
Original file line number	Diff line number	Diff line change
`@@ -12,7 +12,7 @@`
`12`	`12`	`num_stages=4, num_warps=32),`
`13`	`13`	`],`
`14`	`14`	`key=['M', 'N', 'K'],`
`15`		`- do_bench=benchmark_suit.make_do_bench_for_autotune(kernel_name='_kernel'),`
	`15`	`+ do_bench=benchmark_suit.make_do_bench_for_autotune(),`
`16`	`16`	`)`
`17`	`17`	`@triton.jit`
`18`	`18`	`def _kernel(A, B, C, #`