JuliaGPU · anicusan · Aug 9, 2025 · Jun 24, 2025 · Aug 3, 2025
diff --git a/benchmark/Project.toml b/benchmark/Project.toml
@@ -1,3 +1,10 @@
 [deps]
 AcceleratedKernels = "6a4ca0a5-0e36-4168-a932-d9be78d558f1"
+BenchmarkPlots = "ab8c0f59-4072-4e0d-8f91-a91e1495eb26"
+BenchmarkTools = "6e4b80f9-dd63-53aa-95a3-0cdb28fa8baf"
+FileIO = "5789e2e9-d7fb-5bc7-8068-2c6fae9b9549"
+GPUArrays = "0c68f7d7-f131-5f86-a1c3-88cf8149b2d7"
 KernelAbstractions = "63c18a36-062a-441e-b654-da1e3ab1ce7c"
+Random = "9a3f8284-a2c9-5f02-9a11-845980a1fd5c"
+StableRNGs = "860ef19b-820b-49d6-a774-d7a799459cd3"
+StatsPlots = "f3b207a7-027a-5e70-b257-86293d7955fd"
diff --git a/benchmark/accumulate_1d.jl b/benchmark/accumulate_1d.jl
@@ -1,53 +1,22 @@
-import AcceleratedKernels as AK
-using KernelAbstractions
+group = addgroup!(SUITE, "accumulate_1d")
 
-using BenchmarkTools
-using Random
-Random.seed!(0)
+acc_f(x, y) = sin(x) + cos(y)
 
 
-# Choose the Array backend:
-#
-# using CUDA
-# const ArrayType = CuArray
-#
-# using AMDGPU
-# const ArrayType = ROCArray
-#
-# using oneAPI
-# const ArrayType = oneArray
-#
-# using Metal
-# const ArrayType = MtlArray
-#
-# using OpenCL
-# const ArrayType = CLArray
-#
-const ArrayType = Array
-
-
-println("Using ArrayType: ", ArrayType)
-
+GPUArrays.neutral_element(::typeof(acc_f), T) = T(0)
 
 n = 1_000_000
 
+for T in [UInt32, Int64, Float32]
+    local _group = addgroup!(group, "$T")
 
-println("\n===\nBenchmarking accumulate(+) on $n UInt32 - Base vs. AK")
-display(@benchmark Base.accumulate(+, v, init=UInt32(0)) setup=(v = ArrayType(rand(UInt32(1):UInt32(100), n))))
-display(@benchmark AK.accumulate(+, v, init=UInt32(0)) setup=(v = ArrayType(rand(UInt32(1):UInt32(100), n))))
-
-
-println("\n===\nBenchmarking accumulate(+) on $n Int64 - Base vs. AK")
-display(@benchmark Base.accumulate(+, v, init=Int64(0)) setup=(v = ArrayType(rand(Int64(1):Int64(100), n))))
-display(@benchmark AK.accumulate(+, v, init=Int64(0)) setup=(v = ArrayType(rand(Int64(1):Int64(100), n))))
-
-
-println("\n===\nBenchmarking accumulate(+) on $n Float32 - Base vs. AK")
-display(@benchmark Base.accumulate(+, v, init=Float32(0)) setup=(v = ArrayType(rand(Float32, n))))
-display(@benchmark AK.accumulate(+, v, init=Float32(0)) setup=(v = ArrayType(rand(Float32, n))))
+    local randrange = T == Float32 ? T : T(1):T(100)
 
+    _group["base_1d"] = @benchmarkable @sb(Base.accumulate(+, v; init=$T(0))) setup=(v = ArrayType(rand(rng, $randrange, n)))
+    _group["acck_1d"] = @benchmarkable @sb(AK.accumulate(+, v; init=$T(0))) setup=(v = ArrayType(rand(rng, $randrange, n)))
 
-println("\n===\nBenchmarking accumulate((x, y) -> sin(x) + cos(y)) on $n Float32 - Base vs. AK")
-display(@benchmark Base.accumulate((x, y) -> sin(x) + cos(y), v, init=Float32(0)) setup=(v = ArrayType(rand(Float32, n))))
-display(@benchmark AK.accumulate((x, y) -> sin(x) + cos(y), v, init=Float32(0), neutral=Float32(0)) setup=(v = ArrayType(rand(Float32, n))))
+    T == Float32 || continue
 
+    _group["base_1d_sincos"] = @benchmarkable @sb(Base.accumulate(acc_f, v; init=$T(0))) setup=(v = ArrayType(rand(rng, $randrange, n)))
+    _group["acck_1d_sincos"] = @benchmarkable @sb(AK.accumulate(acc_f, v; init=$T(0), neutral=$T(0))) setup=(v = ArrayType(rand(rng, $randrange, n)))
+end
diff --git a/benchmark/accumulate_nd.jl b/benchmark/accumulate_nd.jl
@@ -1,75 +1,28 @@
-import AcceleratedKernels as AK
-using KernelAbstractions
+group = addgroup!(SUITE, "accumulate_nd")
 
-using BenchmarkTools
-using Random
-Random.seed!(0)
-
-
-# Choose the Array backend:
-#
-# using CUDA
-# const ArrayType = CuArray
-#
-# using AMDGPU
-# const ArrayType = ROCArray
-#
-# using oneAPI
-# const ArrayType = oneArray
-#
-# using Metal
-# const ArrayType = MtlArray
-#
-# using OpenCL
-# const ArrayType = CLArray
-#
-const ArrayType = Array
-
-
-println("Using ArrayType: ", ArrayType)
+acc_f(x, y) = sin(x) + cos(y)
 
+GPUArrays.neutral_element(::typeof(acc_f), T) = T(0)
 
 n1 = 3
 n2 = 1_000_000
 
+for T in [UInt32, Int64, Float32]
+    local _group = addgroup!(group, "$T")
 
-println("\n===\nBenchmarking accumulate(+, dims=1) on $n1 × $n2 UInt32 - Base vs. AK")
-display(@benchmark Base.accumulate(+, v, init=UInt32(0), dims=1) setup=(v = ArrayType(rand(UInt32(1):UInt32(100), n1, n2))))
-display(@benchmark AK.accumulate(+, v, init=UInt32(0), dims=1) setup=(v = ArrayType(rand(UInt32(1):UInt32(100), n1, n2))))
-
-println("\n===\nBenchmarking accumulate(+, dims=2) on $n1 × $n2 UInt32 - Base vs. AK")
-display(@benchmark Base.accumulate(+, v, init=UInt32(0), dims=2) setup=(v = ArrayType(rand(UInt32(1):UInt32(100), n1, n2))))
-display(@benchmark AK.accumulate(+, v, init=UInt32(0), dims=2) setup=(v = ArrayType(rand(UInt32(1):UInt32(100), n1, n2))))
-
-
-
-
-println("\n===\nBenchmarking accumulate(+, dims=1) on $n1 × $n2 Int64 - Base vs. AK")
-display(@benchmark Base.accumulate(+, v, init=Int64(0), dims=1) setup=(v = ArrayType(rand(Int64(1):Int64(100), n1, n2))))
-display(@benchmark AK.accumulate(+, v, init=Int64(0), dims=1) setup=(v = ArrayType(rand(Int64(1):Int64(100), n1, n2))))
-
-println("\n===\nBenchmarking accumulate(+, dims=2) on $n1 × $n2 Int64 - Base vs. AK")
-display(@benchmark Base.accumulate(+, v, init=Int64(0), dims=2) setup=(v = ArrayType(rand(Int64(1):Int64(100), n1, n2))))
-display(@benchmark AK.accumulate(+, v, init=Int64(0), dims=2) setup=(v = ArrayType(rand(Int64(1):Int64(100), n1, n2))))
-
-
-
-
-println("\n===\nBenchmarking accumulate(+, dims=1) on $n1 × $n2 Float32 - Base vs. AK")
-display(@benchmark Base.accumulate(+, v, init=Float32(0), dims=1) setup=(v = ArrayType(rand(Float32, n1, n2))))
-display(@benchmark AK.accumulate(+, v, init=Float32(0), dims=1) setup=(v = ArrayType(rand(Float32, n1, n2))))
-
-println("\n===\nBenchmarking accumulate(+, dims=2) on $n1 × $n2 Float32 - Base vs. AK")
-display(@benchmark Base.accumulate(+, v, init=Float32(0), dims=2) setup=(v = ArrayType(rand(Float32, n1, n2))))
-display(@benchmark AK.accumulate(+, v, init=Float32(0), dims=2) setup=(v = ArrayType(rand(Float32, n1, n2))))
+    local randrange = T == Float32 ? T : T(1):T(100)
 
+    _group["base_dims=1"] = @benchmarkable @sb(Base.accumulate(+, v, init=$T(0), dims=1)) setup=(v = ArrayType(rand(rng, $randrange, n1, n2)))
+    _group["acck_dims=1"] = @benchmarkable @sb(AK.accumulate(+, v, init=$T(0), dims=1)) setup=(v = ArrayType(rand(rng, $randrange, n1, n2)))
 
+    _group["base_dims=2"] = @benchmarkable @sb(Base.accumulate(+, v, init=$T(0), dims=2)) setup=(v = ArrayType(rand(rng, $randrange, n1, n2)))
+    _group["acck_dims=2"] = @benchmarkable @sb(AK.accumulate(+, v, init=$T(0), dims=2)) setup=(v = ArrayType(rand(rng, $randrange, n1, n2)))
 
+    T == Float32 || continue
 
-println("\n===\nBenchmarking accumulate((x, y) -> sin(x) + cos(y)), dims=1) on $n1 × $n2 Float32 - Base vs. AK")
-display(@benchmark Base.accumulate((x, y) -> sin(x) + cos(y), v, init=Float32(0), dims=1) setup=(v = ArrayType(rand(Float32, n1, n2))))
-display(@benchmark AK.accumulate((x, y) -> sin(x) + cos(y), v, init=Float32(0), neutral=Float32(0), dims=1) setup=(v = ArrayType(rand(Float32, n1, n2))))
+    _group["base_sincos_dims=1"] = @benchmarkable @sb(Base.accumulate(acc_f, v, init=$T(0), dims=1)) setup=(v = ArrayType(rand(rng, $randrange, n1, n2)))
+    _group["acck_sincos_dims=1"] = @benchmarkable @sb(AK.accumulate(acc_f, v, init=$T(0), neutral=$T(0), dims=1)) setup=(v = ArrayType(rand(rng, $randrange, n1, n2)))
 
-println("\n===\nBenchmarking accumulate((x, y) -> sin(x) + cos(y)), dims=2) on $n1 × $n2 Float32 - Base vs. AK")
-display(@benchmark Base.accumulate((x, y) -> sin(x) + cos(y), v, init=Float32(0), dims=2) setup=(v = ArrayType(rand(Float32, n1, n2))))
-display(@benchmark AK.accumulate((x, y) -> sin(x) + cos(y), v, init=Float32(0), neutral=Float32(0), dims=2) setup=(v = ArrayType(rand(Float32, n1, n2))))
+    _group["base_sincos_dims=2"] = @benchmarkable @sb(Base.accumulate(acc_f, v, init=$T(0), dims=2)) setup=(v = ArrayType(rand(rng, $randrange, n1, n2)))
+    _group["acck_sincos_dims=2"] = @benchmarkable @sb(AK.accumulate(acc_f, v, init=$T(0), neutral=$T(0), dims=2)) setup=(v = ArrayType(rand(rng, $randrange, n1, n2)))
+end