Unify WMMA and FPU operator typevars [NFC] (#122)

maleadt · web-flow · commit a7f60214b144 · 2023-06-30T15:32:38.000+02:00
The WMMA operator only had a T typevar for the accumulator type,
while the FPU operator had DT for the destination type and CT for
the compute type. Unify that by adding both compute type (CT) and
accumulator type (AT) typevars that indicate the type that should
be used for the register-level storage and operations.

Note that the WMMA operator's typevars are actually not useful, and
should match the eltype of the shared memory (as we use WMMA intrinsics
to load/store shared memory, so cannot convert between shared memory and
registers). However, we need the accumulator typevar as it cannot be
inferred from arguments at some points, so I decided to add the compute
typevar too for alignment with the FPU operator.
diff --git a/src/blas.jl b/src/blas.jl
@@ -52,9 +52,10 @@ function gemmEx!(transA::Char, transB::Char, alpha::Number, A::CuMatrix, B::CuMa
     ## outputs are never transposed, and padding them doesn't seem worth it
     shared_c_layout = shared_d_layout = Layout.AlignedColMajor{eltype(C)}
 
+    compute_type = promote_type(eltype(A), eltype(B))
     conf = GemmKernels.get_config(;
             gemm_shape = (M = m, N = n, K = k),
-            operator = Operator.WMMAOp{16, 16, 16, eltype(C)},
+            operator = Operator.WMMAOp{16, 16, 16, compute_type, eltype(C)},
 
             global_a_layout, global_b_layout, global_c_layout, global_d_layout,
             shared_a_layout, shared_b_layout, shared_c_layout, shared_d_layout,
diff --git a/src/operator.jl b/src/operator.jl
@@ -20,23 +20,25 @@ end
 # FPU
 # ---
 
-abstract type GeneralFPUOp{M, N, K, DT, CT} end
+# CT is the compute type used to perform scalar operations in.
+# AT is the accumulator type used to accumulate partial results.
+abstract type GeneralFPUOp{M, N, K, CT, AT} end
 
-@inline shape(::Type{<:GeneralFPUOp{M, N, K, DT, CT}}) where {M, N, K, DT, CT} = (M = M, N = N, K = K)
+@inline shape(::Type{<:GeneralFPUOp{M, N, K, CT, AT}}) where {M, N, K, CT, AT} = (M = M, N = N, K = K)
 
 for (layout_type, convert_index_func) in [
                                         (Layout.AlignedColMajor, identity),
                                         (Layout.AlignedRowMajor, x -> reverse(Tuple(x)))
                                        ]
     @eval begin
-        @inline fragtype_a(::Type{<:GeneralFPUOp{M, N, K, DT, CT}}, ::Type{$layout_type{CT}}) where {M, N, K, DT, CT} = NTuple{M * K ÷ 4, CT}
-        @inline fragtype_b(::Type{<:GeneralFPUOp{M, N, K, DT, CT}}, ::Type{$layout_type{CT}}) where {M, N, K, DT, CT} = NTuple{K * N ÷ 8, CT}
+        @inline fragtype_a(::Type{<:GeneralFPUOp{M, N, K, CT, AT}}, ::Type{$layout_type{DT}}) where {M, N, K, CT, AT, DT} = NTuple{M * K ÷ 4, CT}
+        @inline fragtype_b(::Type{<:GeneralFPUOp{M, N, K, CT, AT}}, ::Type{$layout_type{DT}}) where {M, N, K, CT, AT, DT} = NTuple{K * N ÷ 8, CT}
 
-        @inline function fragtype_accum(::Type{<:GeneralFPUOp{M, N, K, DT, CT}}, ::Type{$layout_type{DT}}) where {M, N, K, DT, CT}
-            return NTuple{M * N ÷ 32, DT}
+        @inline function fragtype_accum(::Type{<:GeneralFPUOp{M, N, K, CT, AT}}, ::Type{$layout_type{DT}}) where {M, N, K, CT, AT, DT}
+            return NTuple{M * N ÷ 32, AT}
         end
 
-        @inline function load_a(::Type{<:GeneralFPUOp{M, N, K, DT, CT}}, ::Type{$layout_type{CT}}, workspace, tile::Tile) where {M, N, K, DT, CT}
+        @inline function load_a(::Type{<:GeneralFPUOp{M, N, K, CT, AT}}, ::Type{$layout_type{DT}}, workspace, tile::Tile) where {M, N, K, CT, AT, DT}
             laneId = (threadIdx().x - 1) % 32 + 1
 
             op_y = (laneId - 1) % 4 + 1
@@ -53,7 +55,7 @@ for (layout_type, convert_index_func) in [
             return NTuple{M * K ÷ 4, CT}(frag)
         end
 
-        @inline function load_b(::Type{<:GeneralFPUOp{M, N, K, DT, CT}}, ::Type{$layout_type{CT}}, workspace, tile::Tile) where {M, N, K, DT, CT}
+        @inline function load_b(::Type{<:GeneralFPUOp{M, N, K, CT, AT}}, ::Type{$layout_type{DT}}, workspace, tile::Tile) where {M, N, K, CT, AT, DT}
             laneId = (threadIdx().x - 1) % 32 + 1
 
             op_x = (laneId - 1) ÷ 4 + 1
@@ -70,33 +72,33 @@ for (layout_type, convert_index_func) in [
             return NTuple{K * N ÷ 8, CT}(frag)
         end
 
-        @inline function load_c(::Type{<:GeneralFPUOp{M, N, K, DT, CT}}, ::Type{$layout_type{DT}}, workspace, tile::Tile) where {M, N, K, DT, CT}
+        @inline function load_c(::Type{<:GeneralFPUOp{M, N, K, CT, AT}}, ::Type{$layout_type{DT}}, workspace, tile::Tile) where {M, N, K, CT, AT, DT}
             laneId = (threadIdx().x - 1) % 32 + 1
 
             op_y = (laneId - 1) % 4 + 1
             op_x = (laneId - 1) ÷ 4 + 1
 
             y, x = (tile.base.M + tile.offset.M + op_y, tile.base.N + tile.offset.N + op_x)
 
-            frag = LocalArray{Tuple{M ÷ 4, N ÷ 8}, DT}(undef)
+            frag = LocalArray{Tuple{M ÷ 4, N ÷ 8}, AT}(undef)
             @loopinfo unroll for m = 1 : M ÷ 4
                 @loopinfo unroll for n = 1 : N ÷ 8
                     @inbounds @immutable frag[m,n] = workspace[y + 4 * (m - 1), x + 8 * (n - 1)]
                 end
             end
 
-            return NTuple{M * N ÷ 32, DT}(frag)
+            return NTuple{M * N ÷ 32, AT}(frag)
         end
 
-        @inline function store_d(::Type{<:GeneralFPUOp{M, N, K, DT, CT}}, ::Type{$layout_type{DT}}, workspace, frag, tile::Tile) where {M, N, K, DT, CT}
+        @inline function store_d(::Type{<:GeneralFPUOp{M, N, K, CT, AT}}, ::Type{$layout_type{DT}}, workspace, frag, tile::Tile) where {M, N, K, CT, AT, DT}
             laneId = (threadIdx().x - 1) % 32 + 1
 
             op_y = (laneId - 1) % 4 + 1
             op_x = (laneId - 1) ÷ 4 + 1
 
             y, x = (tile.base.M + tile.offset.M + op_y, tile.base.N + tile.offset.N + op_x)
 
-            frag = LocalArray{Tuple{M ÷ 4, N ÷ 8}, DT}(frag)
+            frag = LocalArray{Tuple{M ÷ 4, N ÷ 8}, AT}(frag)
             @loopinfo unroll for m = 1 : M ÷ 4
                 @loopinfo unroll for n = 1 : N ÷ 8
                     @inbounds workspace[y + 4 * (m - 1), x + 8 * (n - 1)] = frag[m, n]
@@ -106,20 +108,20 @@ for (layout_type, convert_index_func) in [
     end
 end
 
-abstract type FPUOp{M, N, K, DT, CT} <: GeneralFPUOp{M, N, K, DT, CT} end
-function operator_fma(::Type{FPUOp{M, N, K, DT, CT}}, a::CT, b::CT, c::DT) where {M, N, K, DT, CT}
+abstract type FPUOp{M, N, K, CT, AT} <: GeneralFPUOp{M, N, K, CT, AT} end
+function operator_fma(::Type{FPUOp{M, N, K, CT, AT}}, a::CT, b::CT, c::AT) where {M, N, K, CT, AT}
     return fma(a, b, c)
 end
 
-abstract type TropicalFPUOp{M, N, K, DT, CT} <: GeneralFPUOp{M, N, K, DT, CT} end
-function operator_fma(::Type{TropicalFPUOp{M, N, K, DT, CT}}, a::CT, b::CT, c::DT) where {M, N, K, DT, CT}
+abstract type TropicalFPUOp{M, N, K, CT, AT} <: GeneralFPUOp{M, N, K, CT, AT} end
+function operator_fma(::Type{TropicalFPUOp{M, N, K, CT, AT}}, a::CT, b::CT, c::AT) where {M, N, K, CT, AT}
     return max(a + b, c)
 end
 
-@inline function mma(operator_type::Type{<:GeneralFPUOp{M, N, K, DT, CT}}, a_frag, b_frag, c_frag) where {M, N, K, DT, CT}
+@inline function mma(operator_type::Type{<:GeneralFPUOp{M, N, K, CT, AT}}, a_frag, b_frag, c_frag) where {M, N, K, CT, AT}
     a_frag = LocalArray{Tuple{M ÷ 4, K}, CT}(a_frag)
     b_frag = LocalArray{Tuple{K, N ÷ 8}, CT}(b_frag)
-    c_frag = LocalArray{Tuple{M ÷ 4, N ÷ 8}, DT}(c_frag)
+    c_frag = LocalArray{Tuple{M ÷ 4, N ÷ 8}, AT}(c_frag)
 
     @loopinfo unroll for m = 1 : M ÷ 4
         @loopinfo unroll for n = 1 : N ÷ 8
@@ -129,71 +131,75 @@ end
         end
     end
 
-    return NTuple{M * N ÷ 32, DT}(c_frag)
+    return NTuple{M * N ÷ 32, AT}(c_frag)
 end
 
 # ----
 # WMMA
 # ----
 
-struct WMMAOp{M, N, K, T} end
+# WMMAOp's register types cannot be configured, and CT/AT should be identical to their
+# respective shared memory layouts eltypes. this is because WMMA intrinsics are used
+# to load/store shared memory, so we cannot perform any conversions on the fly.
+# note that there still can be a conversion between global and shared memory.
+struct WMMAOp{M, N, K, CT, AT} end
 
-@inline shape(::Type{WMMAOp{M, N, K, T}}) where {M, N, K, T} = (M = M, N = N, K = K)
+@inline shape(::Type{WMMAOp{M, N, K, CT, AT}}) where {M, N, K, CT, AT} = (M = M, N = N, K = K)
 
 # convert_index_func: function used to transpose the index in case of a row-major layout
 for (layout_type, wmma_layout_type, convert_index_func) in [
                                         (Layout.AlignedColMajor, WMMA.ColMajor, identity),
                                         (Layout.AlignedRowMajor, WMMA.RowMajor, x -> reverse(Tuple(x)))
                                        ]
     @eval begin
-        @inline fragtype_a(::Type{WMMAOp{16, 16, 16, T}}, ::Type{$layout_type{Float16}}) where {T} = WMMA.Fragment{16, 16, 16, 16, Float16, $wmma_layout_type, WMMA.MatrixA}
-        @inline fragtype_b(::Type{WMMAOp{16, 16, 16, T}}, ::Type{$layout_type{Float16}}) where {T} = WMMA.Fragment{16, 16, 16, 16, Float16, $wmma_layout_type, WMMA.MatrixB}
-        @inline fragtype_accum(::Type{WMMAOp{16, 16, 16, T}}, ::Type{$layout_type{T}}) where {T} = WMMA.Fragment{16, 16, 16, 8, T, WMMA.Unspecified, WMMA.Accumulator}
+        @inline fragtype_a(::Type{WMMAOp{16, 16, 16, CT, AT}}, ::Type{$layout_type{CT}}) where {CT, AT} = WMMA.Fragment{16, 16, 16, 16, CT, $wmma_layout_type, WMMA.MatrixA}
+        @inline fragtype_b(::Type{WMMAOp{16, 16, 16, CT, AT}}, ::Type{$layout_type{CT}}) where {CT, AT} = WMMA.Fragment{16, 16, 16, 16, CT, $wmma_layout_type, WMMA.MatrixB}
+        @inline fragtype_accum(::Type{WMMAOp{16, 16, 16, CT, AT}}, ::Type{$layout_type{AT}}) where {CT, AT} = WMMA.Fragment{16, 16, 16, 8, AT, WMMA.Unspecified, WMMA.Accumulator}
 
-        @inline function load_a(::Type{WMMAOp{M, N, K, T}}, ::Type{$layout_type{Float16}}, workspace, tile::Tile) where {M, N, K, T}
-            conf = WMMA.Config{M, N, K, T}
+        @inline function load_a(::Type{WMMAOp{M, N, K, CT, AT}}, ::Type{$layout_type{CT}}, workspace, tile::Tile) where {M, N, K, CT, AT}
+            conf = WMMA.Config{M, N, K, AT}
 
             linear_base = linearise($convert_index_func(tile.base), size(workspace))
             linear_offset = linearise($convert_index_func(tile.offset), size(workspace))
 
-            ptr = pointer(workspace, linear_base) + (linear_offset - 1) * sizeof(Float16)
+            ptr = pointer(workspace, linear_base) + (linear_offset - 1) * sizeof(CT)
             return WMMA.load_a(ptr, size(workspace, 1), $wmma_layout_type, conf)
         end
 
-        @inline function load_b(::Type{WMMAOp{M, N, K, T}}, ::Type{$layout_type{Float16}}, workspace, tile::Tile) where {M, N, K, T}
-            conf = WMMA.Config{M, N, K, T}
+        @inline function load_b(::Type{WMMAOp{M, N, K, CT, AT}}, ::Type{$layout_type{CT}}, workspace, tile::Tile) where {M, N, K, CT, AT}
+            conf = WMMA.Config{M, N, K, AT}
 
             linear_base = linearise($convert_index_func(tile.base), size(workspace))
             linear_offset = linearise($convert_index_func(tile.offset), size(workspace))
 
-            ptr = pointer(workspace, linear_base) + (linear_offset - 1) * sizeof(Float16)
+            ptr = pointer(workspace, linear_base) + (linear_offset - 1) * sizeof(CT)
             return WMMA.load_b(ptr, size(workspace, 1), $wmma_layout_type, conf)
         end
 
-        @inline function load_c(::Type{WMMAOp{M, N, K, T}}, ::Type{$layout_type{T}}, workspace, tile::Tile) where {M, N, K, T}
-            conf = WMMA.Config{M, N, K, T}
+        @inline function load_c(::Type{WMMAOp{M, N, K, CT, AT}}, ::Type{$layout_type{AT}}, workspace, tile::Tile) where {M, N, K, CT, AT}
+            conf = WMMA.Config{M, N, K, AT}
 
             linear_base = linearise($convert_index_func(tile.base), size(workspace))
             linear_offset = linearise($convert_index_func(tile.offset), size(workspace))
 
-            ptr = pointer(workspace, linear_base) + (linear_offset - 1) * sizeof(T)
+            ptr = pointer(workspace, linear_base) + (linear_offset - 1) * sizeof(AT)
             return WMMA.load_c(ptr, size(workspace, 1), $wmma_layout_type, conf)
         end
 
-        @inline function store_d(::Type{WMMAOp{M, N, K, T}}, ::Type{$layout_type{T}}, workspace, frag, tile::Tile) where {M, N, K, T}
-            conf = WMMA.Config{M, N, K, T}
+        @inline function store_d(::Type{WMMAOp{M, N, K, CT, AT}}, ::Type{$layout_type{AT}}, workspace, frag, tile::Tile) where {M, N, K, CT, AT}
+            conf = WMMA.Config{M, N, K, AT}
 
             linear_base = linearise($convert_index_func(tile.base), size(workspace))
             linear_offset = linearise($convert_index_func(tile.offset), size(workspace))
 
-            ptr = pointer(workspace, linear_base) + (linear_offset - 1) * sizeof(T)
+            ptr = pointer(workspace, linear_base) + (linear_offset - 1) * sizeof(AT)
             WMMA.store_d(ptr, frag, size(workspace, 1), $wmma_layout_type, conf)
         end
     end
 end
 
-function mma(::Type{WMMAOp{M, N, K, T}}, a_frag, b_frag, c_frag) where {M, N, K, T}
-    conf = WMMA.Config{M, N, K, T}
+function mma(::Type{WMMAOp{M, N, K, CT, AT}}, a_frag, b_frag, c_frag) where {M, N, K, CT, AT}
+    conf = WMMA.Config{M, N, K, AT}
     return WMMA.mma(a_frag, b_frag, c_frag, conf)
 end
 
diff --git a/test/matmul.jl b/test/matmul.jl
@@ -14,8 +14,11 @@ using LinearAlgebra
         transpose_a = [false, true],
         transpose_b = [false, true],
         (OP_M, OP_N, OP_K) in [(8, 16, 2)]
+
+        compute_type = promote_type(A_type, B_type)
+
         @testcase "(M = $M, N = $N, K = $K)" for (M, N, K) in vcat(min_dimension.*[[1,1,1], [2, 2, 1], [1, 1, 2], [2, 2, 2]], [[2048, 2048, 2048]])
-            alpha = convert(A_type, 2)
+            alpha = convert(compute_type, 2)
             beta  = convert(CD_type, 3)
 
             if A_type <: Integer
@@ -39,7 +42,7 @@ using LinearAlgebra
             conf = GemmKernels.get_config(
                                             gemm_shape = (M = M, N = N, K = K),
                                             block_shape = (M = 64, N = 64, K = 32),
-                                            operator = Operator.FPUOp{OP_M, OP_N, OP_K, CD_type, A_type},
+                                            operator = Operator.FPUOp{OP_M, OP_N, OP_K, compute_type, CD_type},
                                             global_a_layout = transpose_a ? Layout.AlignedRowMajor{A_type} : Layout.AlignedColMajor{A_type},
                                             global_b_layout = transpose_b ? Layout.AlignedRowMajor{B_type} : Layout.AlignedColMajor{B_type},
 
@@ -75,7 +78,9 @@ using LinearAlgebra
             (M, N, K) = (128, 128, 128)
             (A_type, B_type, CD_type) = (Float32, Float32, Float32)
 
-            alpha = convert(A_type, 2)
+            compute_type = promote_type(A_type, B_type)
+
+            alpha = convert(compute_type, 2)
             beta  = convert(CD_type, 3)
 
             a_h = rand(A_type, (M, K)) / sqrt(A_type(K))
@@ -94,7 +99,7 @@ using LinearAlgebra
             conf = GemmKernels.get_config(
                                             gemm_shape = (M = M, N = N, K = K),
                                             block_shape = (M = 128, N = 64, K = 32),
-                                            operator = Operator.FPUOp{OP_M, OP_N, OP_K, CD_type, A_type},
+                                            operator = Operator.FPUOp{OP_M, OP_N, OP_K, compute_type, CD_type},
                                             global_a_layout = transpose_a ? Layout.AlignedRowMajor{A_type} : Layout.AlignedColMajor{A_type},
                                             global_b_layout = transpose_b ? Layout.AlignedRowMajor{B_type} : Layout.AlignedColMajor{B_type},
 
@@ -125,6 +130,8 @@ using LinearAlgebra
         transpose_b = [false, true],
         (OP_M, OP_N, OP_K) in [(8, 16, 2)]
 
+        compute_type = promote_type(A_type, B_type)
+
         @testcase "(M = $M, N = $N, K = $K)" for (M, N, K) in vcat(min_dimension.*[[1,1,1], [2, 2, 1], [1, 1, 2], [2, 2, 2]])
             a_h = rand(A_type, (M, K)) / sqrt(A_type(K))
             b_h = rand(B_type, (K, N)) / sqrt(B_type(K))
@@ -152,7 +159,7 @@ using LinearAlgebra
             conf = GemmKernels.get_config(
                                             gemm_shape = (M = M, N = N, K = K),
                                             block_shape = (M = 64, N = 64, K = 32),
-                                            operator = Operator.TropicalFPUOp{OP_M, OP_N, OP_K, CD_type, A_type},
+                                            operator = Operator.TropicalFPUOp{OP_M, OP_N, OP_K, compute_type, CD_type},
                                             global_a_layout = transpose_a ? Layout.AlignedRowMajor{A_type} : Layout.AlignedColMajor{A_type},
                                             global_b_layout = transpose_b ? Layout.AlignedRowMajor{B_type} : Layout.AlignedColMajor{B_type},
 
@@ -170,15 +177,15 @@ using LinearAlgebra
     end
 
 
-    @testset "WMMA GEMM $(A_type)*$(B_type)+$(CD_type)=$(CD_type) ($( !transpose_a ? 'N' : 'T' )$( !transpose_b ? 'N' : 'T' ))" for transpose_a = [false, true],
+    @testset "WMMA GEMM $(AB_type)*$(AB_type)+$(CD_type)=$(CD_type) ($( !transpose_a ? 'N' : 'T' )$( !transpose_b ? 'N' : 'T' ))" for transpose_a = [false, true],
         transpose_b = [false, true],
-        (A_type, B_type, CD_type, min_dimension) in [(Float16, Float16, Float16, 256), (Float16, Float16, Float32, 128)]
+        (AB_type, CD_type, min_dimension) in [(Float16, Float16, 256), (Float16, Float32, 128)]
         @testcase "(M = $M, N = $N, K = $K)" for (M, N, K) in vcat(min_dimension.*[[1,1,1], [2,2,1], [1,1,2], [2,2,2]], [[2048, 2048, 2048]])
-            alpha = convert(A_type, 2)
+            alpha = convert(AB_type, 2)
             beta  = convert(CD_type, 3)
 
-            a_h = rand(A_type, (M, K)) / sqrt(A_type(K))
-            b_h = rand(B_type, (K, N)) / sqrt(B_type(K))
+            a_h = rand(AB_type, (M, K)) / sqrt(AB_type(K))
+            b_h = rand(AB_type, (K, N)) / sqrt(AB_type(K))
             c_h = rand(CD_type, (M, N))
 
             # Transpose input if necessary
@@ -192,9 +199,9 @@ using LinearAlgebra
 
             conf = GemmKernels.get_config(
                                           gemm_shape = (M = M, N = N, K = K),
-                                          operator = Operator.WMMAOp{16, 16, 16, CD_type},
-                                          global_a_layout = transpose_a ? Layout.AlignedRowMajor{A_type} : Layout.AlignedColMajor{A_type},
-                                          global_b_layout = transpose_b ? Layout.AlignedRowMajor{B_type} : Layout.AlignedColMajor{B_type},
+                                          operator = Operator.WMMAOp{16, 16, 16, AB_type, CD_type},
+                                          global_a_layout = transpose_a ? Layout.AlignedRowMajor{AB_type} : Layout.AlignedColMajor{AB_type},
+                                          global_b_layout = transpose_b ? Layout.AlignedRowMajor{AB_type} : Layout.AlignedColMajor{AB_type},
 
                                           global_c_layout = Layout.AlignedColMajor{CD_type},
                                           global_d_layout = Layout.AlignedColMajor{CD_type},
@@ -213,7 +220,7 @@ using LinearAlgebra
             new_a_h = transpose_a ? transpose(a_h) : a_h
             new_b_h = transpose_b ? transpose(b_h) : b_h
 
-            @test all(isapprox.(alpha * CD_type.(new_a_h) * CD_type.(new_b_h) + beta * c_h, Array(d); rtol = sqrt(eps(A_type))))
+            @test all(isapprox.(alpha * CD_type.(new_a_h) * CD_type.(new_b_h) + beta * c_h, Array(d); rtol = sqrt(eps(AB_type))))
         end
     end
 
@@ -244,7 +251,7 @@ using LinearAlgebra
 
             conf = GemmKernels.get_config(
                                           gemm_shape = (M = M, N = N, K = K),
-                                          operator = Operator.WMMAOp{16, 16, 16, Float32},
+                                          operator = Operator.WMMAOp{16, 16, 16, Float16, Float32},
                                           global_a_layout = transpose_a ? Layout.AlignedRowMajor{Float16} : Layout.AlignedColMajor{Float16},
                                           global_b_layout = transpose_b ? Layout.AlignedRowMajor{Float16} : Layout.AlignedColMajor{Float16},
 
@@ -289,7 +296,7 @@ using LinearAlgebra
 
             conf = GemmKernels.get_config(
                                           gemm_shape = (M = M, N = N, K = K),
-                                          operator = Operator.WMMAOp{16, 16, 16, Float32},
+                                          operator = Operator.WMMAOp{16, 16, 16, Float16, Float32},
                                           global_a_layout = Layout.Diagonal{Float16},
                                           global_b_layout = transpose_b ? Layout.AlignedRowMajor{Float16} : Layout.AlignedColMajor{Float16},