Temporarily remove the only 2D kernel.

maleadt · maleadt · commit 20538cd90b4b · 2020-01-24T17:43:12.000+01:00
diff --git a/src/host/linalg.jl b/src/host/linalg.jl
@@ -114,56 +114,11 @@ end
 
 ## high-level functionality
 
-function transpose_blocks!(
-        state, odata::AbstractArray{T}, idata, ::Val{SHMEM}, ::Val{TDIM}, ::Val{BLOCK_ROWS}, ::Val{NROW}
-    ) where {T, SHMEM, TDIM, BLOCK_ROWS, NROW}
-
-    tile = @LocalMemory(state, T, SHMEM)
-    bidx_x = blockidx_x(state) - 1
-    bidx_y = blockidx_y(state) - 1
-    tidx_x = threadidx_x(state) - 1
-    tidx_y = threadidx_y(state) - 1
-
-    x = bidx_x * TDIM + tidx_x + 1
-    y = bidx_y * TDIM + tidx_y + 1
-    dims = size(idata)
-
-    (x <= dims[2] && (y + (BLOCK_ROWS * 3)) <= dims[1]) || return
-
-    for j = 0:3
-        j0 = j * BLOCK_ROWS
-        @inbounds tile[tidx_x + 1, tidx_y + j0 + 1] = idata[y + j0, x]
-    end
-
-    synchronize_threads(state)
-    for j = 0:3
-        j0 = j * BLOCK_ROWS
-        @inbounds odata[x, y + j0] = tile[tidx_x + 1, tidx_y + j0 + 1]
-    end
-
-    return
-end
-
 function LinearAlgebra.transpose!(At::AbstractGPUArray{T, 2}, A::AbstractGPUArray{T, 2}) where T
-    if size(A, 1) == size(A, 2) && all(x-> x % 32 == 0, size(A))
-        outsize = size(At)
-        TDIM = 32; BLOCK_ROWS = 8
-        nrows = TDIM ÷ BLOCK_ROWS
-        shmemdim = (TDIM, (TDIM + 1))
-        static_params = map(x-> Val(x), (shmemdim, TDIM, BLOCK_ROWS, nrows))
-        args = (At, A, static_params...)
-
-        griddim = ceil.(Int, size(A) ./ (TDIM, TDIM))
-        blockdim = (TDIM, BLOCK_ROWS)
-        # optimized version for 32x & square dimensions
-        gpu_call(transpose_blocks!, At, args, (griddim, blockdim))
-    else
-        # simple fallback
-        gpu_call(At, (At, A)) do state, At, A
-            idx = @cartesianidx A state
-            @inbounds At[idx[2], idx[1]] = A[idx[1], idx[2]]
-            return
-        end
+    gpu_call(At, (At, A)) do state, At, A
+        idx = @cartesianidx A state
+        @inbounds At[idx[2], idx[1]] = A[idx[1], idx[2]]
+        return
     end
     At
 end