Formatted with black.

isazi · isazi · commit 881042aa0a98 · 2023-03-28T14:22:23.000+02:00
diff --git a/examples/cuda/convolution_correct.py b/examples/cuda/convolution_correct.py
@@ -26,66 +26,88 @@
 import kernel_tuner
 from collections import OrderedDict
 
+
 def tune():
-    with open('convolution.cu', 'r') as f:
+    with open("convolution.cu", "r") as f:
         kernel_string = f.read()
 
     filter_size = (17, 17)
     problem_size = (4096, 4096)
     size = numpy.prod(problem_size)
-    border_size = (filter_size[0]//2*2, filter_size[1]//2*2)
-    input_size = ((problem_size[0]+border_size[0]) * (problem_size[1]+border_size[1]))
+    border_size = (filter_size[0] // 2 * 2, filter_size[1] // 2 * 2)
+    input_size = (problem_size[0] + border_size[0]) * (problem_size[1] + border_size[1])
 
     output = numpy.zeros(size).astype(numpy.float32)
     input = numpy.random.randn(input_size).astype(numpy.float32)
 
-    filter = numpy.random.randn(filter_size[0]*filter_size[1]).astype(numpy.float32)
-    cmem_args= {'d_filter': filter }
+    filter = numpy.random.randn(filter_size[0] * filter_size[1]).astype(numpy.float32)
+    cmem_args = {"d_filter": filter}
 
     args = [output, input, filter]
     tune_params = OrderedDict()
     tune_params["filter_width"] = [filter_size[0]]
     tune_params["filter_height"] = [filter_size[1]]
 
-    #tune_params["block_size_x"] = [16*i for i in range(1,3)]
-    tune_params["block_size_x"] = [16*i for i in range(1,9)]
-    #tune_params["block_size_y"] = [2**i for i in range(1,5)]
-    tune_params["block_size_y"] = [2**i for i in range(1,6)]
+    # tune_params["block_size_x"] = [16*i for i in range(1,3)]
+    tune_params["block_size_x"] = [16 * i for i in range(1, 9)]
+    # tune_params["block_size_y"] = [2**i for i in range(1,5)]
+    tune_params["block_size_y"] = [2**i for i in range(1, 6)]
 
     tune_params["tile_size_x"] = [2**i for i in range(3)]
     tune_params["tile_size_y"] = [2**i for i in range(3)]
 
-    tune_params["use_padding"] = [0,1]  #toggle the insertion of padding in shared memory
-    tune_params["read_only"] = [0,1]    #toggle using the read-only cache
+    tune_params["use_padding"] = [
+        0,
+        1,
+    ]  # toggle the insertion of padding in shared memory
+    tune_params["read_only"] = [0, 1]  # toggle using the read-only cache
 
     grid_div_x = ["block_size_x", "tile_size_x"]
     grid_div_y = ["block_size_y", "tile_size_y"]
 
-    #compute the answer using a naive kernel
-    params = { "block_size_x": 16, "block_size_y": 16}
+    # compute the answer using a naive kernel
+    params = {"block_size_x": 16, "block_size_y": 16}
     tune_params["filter_width"] = [filter_size[0]]
     tune_params["filter_height"] = [filter_size[1]]
-    results = kernel_tuner.run_kernel("convolution_naive", kernel_string,
-        problem_size, args, params,
-        grid_div_y=["block_size_y"], grid_div_x=["block_size_x"], lang='cupy')
-
-    #set non-output fields to None
+    results = kernel_tuner.run_kernel(
+        "convolution_naive",
+        kernel_string,
+        problem_size,
+        args,
+        params,
+        grid_div_y=["block_size_y"],
+        grid_div_x=["block_size_x"],
+        lang="cupy",
+    )
+
+    # set non-output fields to None
     answer = [results[0], None, None]
 
-    #start kernel tuning with correctness verification
-    return kernel_tuner.tune_kernel("convolution_kernel", kernel_string,
-        problem_size, args, tune_params,
-        grid_div_y=grid_div_y, grid_div_x=grid_div_x, verbose=True, cmem_args=cmem_args, answer=answer, lang='cupy')
+    # start kernel tuning with correctness verification
+    return kernel_tuner.tune_kernel(
+        "convolution_kernel",
+        kernel_string,
+        problem_size,
+        args,
+        tune_params,
+        grid_div_y=grid_div_y,
+        grid_div_x=grid_div_x,
+        verbose=True,
+        cmem_args=cmem_args,
+        answer=answer,
+        lang="cupy",
+    )
 
 
 if __name__ == "__main__":
     import time
-    s1 = time.time()*1000
+
+    s1 = time.time() * 1000
     results = tune()
 
-    e1 = time.time()*1000
-    print("\n Actual time used:", e1-s1)
+    e1 = time.time() * 1000
+    print("\n Actual time used:", e1 - s1)
     import json
-    with open("convolution_RTX_2070.json", 'w') as fp:
-        json.dump(results, fp)
 
+    with open("convolution_RTX_2070.json", "w") as fp:
+        json.dump(results, fp)