Merge branch 'master' into patch-1

chriselrod · chriselrod · commit 132ffd097970 · 2021-03-26T04:27:57.000-04:00
diff --git a/benchmark/looptests.c b/benchmark/looptests.c
@@ -7,7 +7,7 @@ void gemm_mnk(double* restrict C, double* restrict A, double* restrict B, long M
   for (long m = 0; m < M; m++){
     for (long n = 0; n < N; n++){
       for (long k = 0; k < K; k++){
-	C[m + n*M] += A[m + k*M] * B[k + n*K];
+        C[m + n*M] += A[m + k*M] * B[k + n*K];
       }
     }
   }
@@ -20,7 +20,7 @@ void gemm_mkn(double* restrict C, double* restrict A, double* restrict B, long M
   for (long m = 0; m < M; m++){
     for (long k = 0; k < K; k++){
       for (long n = 0; n < N; n++){
-	C[m + n*M] += A[m + k*M] * B[k + n*K];
+        C[m + n*M] += A[m + k*M] * B[k + n*K];
       }
     }
   }
@@ -33,7 +33,7 @@ void gemm_nmk(double* restrict C, double* restrict A, double* restrict B, long M
   for (long n = 0; n < N; n++){
     for (long m = 0; m < M; m++){
       for (long k = 0; k < K; k++){
-	C[m + n*M] += A[m + k*M] * B[k + n*K];
+        C[m + n*M] += A[m + k*M] * B[k + n*K];
       }
     }
   }
@@ -46,7 +46,7 @@ void gemm_nkm(double* restrict C, double* restrict A, double* restrict B, long M
   for (long n = 0; n < N; n++){
     for (long k = 0; k < K; k++){
       for (long m = 0; m < M; m++){
-	C[m + n*M] += A[m + k*M] * B[k + n*K];
+        C[m + n*M] += A[m + k*M] * B[k + n*K];
       }
     }
   }
@@ -59,7 +59,7 @@ void gemm_kmn(double* restrict C, double* restrict A, double* restrict B, long M
   for (long k = 0; k < K; k++){
     for (long m = 0; m < M; m++){
       for (long n = 0; n < N; n++){
-	C[m + n*M] += A[m + k*M] * B[k + n*K];
+        C[m + n*M] += A[m + k*M] * B[k + n*K];
       }
     }
   }
@@ -72,7 +72,7 @@ void gemm_knm(double* restrict C, double* restrict A, double* restrict B, long M
   for (long k = 0; k < K; k++){
     for (long n = 0; n < N; n++){
       for (long m = 0; m < M; m++){
-	C[m + n*M] += A[m + k*M] * B[k + n*K];
+        C[m + n*M] += A[m + k*M] * B[k + n*K];
       }
     }
   }
@@ -85,7 +85,7 @@ void AtmulB(double* restrict C, double* restrict At, double* restrict B, long M,
   for (long n = 0; n < N; n++){
     for (long m = 0; m < M; m++){
       for (long k = 0; k < K; k++){
-	C[m + n*M] += At[k + m*K] * B[k + n*K];
+        C[m + n*M] += At[k + m*K] * B[k + n*K];
       }
     }
   }
@@ -98,7 +98,7 @@ void AmulBt(double* restrict C, double* restrict A, double* restrict Bt, long M,
   for (long k = 0; k < K; k++){
     for (long n = 0; n < N; n++){
       for (long m = 0; m < M; m++){
-	C[m + n*M] += A[m + M*k] * Bt[n + N*k];
+        C[m + n*M] += A[m + M*k] * Bt[n + N*k];
       }
     }
   }
@@ -111,7 +111,7 @@ void AtmulBt(double* restrict C, double* restrict A, double* restrict Bt, long M
   for (long n = 0; n < N; n++){
     for (long k = 0; k < K; k++){
       for (long m = 0; m < M; m++){
-	C[m + n*M] += A[k + K*m] * Bt[n + N*k];
+        C[m + n*M] += A[k + K*m] * Bt[n + N*k];
       }
     }
   }
@@ -249,9 +249,9 @@ void filter2d(double* restrict B, double* restrict A, double* restrict K, long M
     for (long ma = offset; ma < M-offset; ma++){
       double tmp = 0.0;
       for (long nk = -offset; nk < offset + 1; nk++){
-	for (long mk = -offset; mk < offset + 1; mk++){
-	  tmp += A[(ma+mk) + (na+nk)*M] * K[(mk+offset) + (nk+offset)*(2*offset+1)];
-	}
+        for (long mk = -offset; mk < offset + 1; mk++){
+          tmp += A[(ma+mk) + (na+nk)*M] * K[(mk+offset) + (nk+offset)*(2*offset+1)];
+        }
       }
       B[(ma-offset) + (na-offset) * (M-2*offset)] = tmp;
     }
@@ -263,9 +263,9 @@ void filter2d3x3(double* restrict B, double* restrict A, double* restrict K, lon
     for (long ma = offset; ma < M-offset; ma++){
       double tmp = 0.0;
       for (long nk = -offset; nk < offset + 1; nk++){
-	for (long mk = -offset; mk < offset + 1; mk++){
-	  tmp += A[(ma+mk) + (na+nk)*M] * K[(mk+offset) + (nk+offset)*(2*offset+1)];
-	}
+        for (long mk = -offset; mk < offset + 1; mk++){
+          tmp += A[(ma+mk) + (na+nk)*M] * K[(mk+offset) + (nk+offset)*(2*offset+1)];
+        }
       }
       B[(ma-offset) + (na-offset) * (M-2*offset)] = tmp;
     }
diff --git a/benchmark/openmp.c b/benchmark/openmp.c
@@ -45,9 +45,9 @@ void conv(double* B, double* A, double* K, long M, long N){
     for (long j = offset; j < M-offset; j++){
       double tmp = 0.0;
       for (long k = -offset; k < offset + 1; k++){
-	for (long l = -offset; l < offset + 1; l++){
-	  tmp += A[(j+l) + (i+k)*M] * K[(l+offset) + (k+offset)*(2*offset+1)];
-	}
+        for (long l = -offset; l < offset + 1; l++){
+          tmp += A[(j+l) + (i+k)*M] * K[(l+offset) + (k+offset)*(2*offset+1)];
+        }
       }
       B[(j-offset) + (i-offset) * (M-2*offset)] = tmp;
     }
diff --git a/docs/src/examples/array_interface.md b/docs/src/examples/array_interface.md
@@ -61,10 +61,10 @@ function runbenches(sr, ::Type{T}, fa = identity, fb = identity) where {T}
     sa = fill("StaticArrays", length(sr)); lv = fill("LoopVectorization", length(sr));
     matmul_lib = vcat(sa, lv, sa, lv);
     sizes = reduce(vcat, (sr for _ ∈ 1:4))
-	DataFrame(
-	    Size = sizes, Time = vec(bench_results), GFLOPS = vec(gflops),
-		ArrayType = array_type, MatmulLib = matmul_lib, MulType = array_type .* ' ' .* matmul_lib
-	)
+    DataFrame(
+        Size = sizes, Time = vec(bench_results), GFLOPS = vec(gflops),
+        ArrayType = array_type, MatmulLib = matmul_lib, MulType = array_type .* ' ' .* matmul_lib
+    )
 end
 
 df = runbenches(1:24, Float64);
diff --git a/docs/src/examples/matrix_multiplication.md b/docs/src/examples/matrix_multiplication.md
@@ -6,12 +6,12 @@ LoopVectorization currently doesn't do any memory-modeling or memory-based optim
 We can write a single function:
 ```julia
 function A_mul_B!(C, A, B)
-	@avx for n ∈ indices((C,B), 2), m ∈ indices((C,A), 1)
+    @avx for n ∈ indices((C,B), 2), m ∈ indices((C,A), 1)
         Cmn = zero(eltype(C))
         for k ∈ indices((A,B), (2,1))
             Cmn += C[m,k] * B[k,n]
         end
-		C[m,n] = Cmn
+        C[m,n] = Cmn
     end
 end
 ```
diff --git a/docs/src/examples/multithreading.md b/docs/src/examples/multithreading.md
@@ -33,18 +33,18 @@ relatively primitive arithmetic operations (e.g. `+`, `/`, or `log`), and not, f
 I'll make comparisons with OpenMP through the rest of this, starting with a simple dot product to focus on threading overhead:
 ```julia
 function dotavxt(a::AbstractArray{T}, b::AbstractArray{T}) where {T <: Real}
-	s = zero(T)
-	@avxt for i ∈ eachindex(a,b)
-	    s += a[i] * b[i]
-	end
-	s
+    s = zero(T)
+    @avxt for i ∈ eachindex(a,b)
+        s += a[i] * b[i]
+    end
+    s
 end
 function dotbaseline(a::AbstractArray{T}, b::AbstractArray{T}) where {T}
-	s = zero(T)
-	@fastmath @inbounds @simd for i ∈ eachindex(a,b)
-	    s += a[i]' * b[i]
-	end
-	s
+    s = zero(T)
+    @fastmath @inbounds @simd for i ∈ eachindex(a,b)
+        s += a[i]' * b[i]
+    end
+    s
 end
 ```
 In `C`:
diff --git a/docs/src/getting_started.md b/docs/src/getting_started.md
@@ -22,7 +22,7 @@ function mvp(P, basis, coeffs::Vector{T}) where {T}
         end
         p += pc
     end
-	p
+    p
 end
 
 maxdeg = 20; nbasis = 1_000; dim = 15;
diff --git a/docs/src/index.md b/docs/src/index.md
@@ -18,11 +18,11 @@ Pages = [
     "examples/sum_of_squared_error.md",
     "vectorized_convenience_functions.md",
     "future_work.md",
-	"devdocs/overview.md",
-	"devdocs/loopset_structure.md",
-	"devdocs/constructing_loopsets.md",
-	"devdocs/evaluating_loops.md",
-	"devdocs/lowering.md"
+    "devdocs/overview.md",
+    "devdocs/loopset_structure.md",
+    "devdocs/constructing_loopsets.md",
+    "devdocs/evaluating_loops.md",
+    "devdocs/lowering.md"
 ]
 Depth = 1
 ```
diff --git a/src/modeling/determinestrategy.jl b/src/modeling/determinestrategy.jl
@@ -1,4 +1,5 @@
 
+
 # function indexappearences(op::Operation, s::Symbol)
 #     s ∉ loopdependencies(op) && return 0
 #     appearences = 0
@@ -95,14 +96,15 @@ function cost(ls::LoopSet, op::Operation, (u₁,u₂)::Tuple{Symbol,Symbol}, vlo
                     shifter = 2
                     offset = 0.5reg_size(ls) / cache_lnsze(ls)
                 end
-                if !rejectcurly(op) && (((contigind === CONSTANTZEROINDEX) && ((length(indices) > 1) && (indices[2] === u₁) || (indices[2] === u₂))) ||
-                    ((u₁ === contigind) | (u₂ === contigind)))
+                if shifter > 1 &&
+                    (!rejectcurly(op) && (((contigind === CONSTANTZEROINDEX) && ((length(indices) > 1) && (indices[2] === u₁) || (indices[2] === u₂))) ||
+                    ((u₁ === contigind) | (u₂ === contigind))))
 
                     shifter -= 1
                     offset = 0.5reg_size(ls) / cache_lnsze(ls)
                 end
                 r = 1 << shifter
-                srt *= r + offset
+                srt = srt*r + offset
                 sl *= r
             elseif isload(op) & (length(loopdependencies(op)) > 1)# vmov(a/u)pd
                 # penalize vectorized loads with more than 1 loopdep
diff --git a/src/simdfunctionals/filter.jl b/src/simdfunctionals/filter.jl
@@ -7,14 +7,15 @@ function vfilter!(f::F, x::Vector{T}, y::AbstractArray{T}) where {F,T <: NativeT
     j = 0
     st = VectorizationBase.static_sizeof(T)
     zero_index = MM(W, Static(0), st)
+    incr = W * VectorizationBase.static_sizeof(T)
     GC.@preserve x y begin
         # ptr_x = llvmptr(x); ptr_y = llvmptr(y)
         ptr_x = pointer(x); ptr_y = pointer(y)
         for _ ∈ 1:Nrep
             vy = VectorizationBase.__vload(ptr_y, zero_index, False(), register_size())
             mask = f(vy)
             VectorizationBase.compressstore!(gep(ptr_x, VectorizationBase.lazymul(st, j)), vy, mask)
-            ptr_y = gep(ptr_y, register_size())
+            ptr_y = gep(ptr_y, incr)
             j = vadd_fast(j, count_ones(mask))
         end
         rem_mask = VectorizationBase.mask(T, Nrem)
diff --git a/test/copy.jl b/test/copy.jl
@@ -27,29 +27,29 @@ using LoopVectorization, OffsetArrays, Test
     end
     function offset_copy!(A, B)
         @inbounds for i=1:size(A,1), j=1:size(B,2)
-	    A[i,j+2] = B[i,j]
+            A[i,j+2] = B[i,j]
         end
     end
     function offset_copyavx1!(A, B)
         @avx for i=1:size(A,1), j=1:size(B,2)
-	    A[i,j+2] = B[i,j]
+           A[i,j+2] = B[i,j]
         end
     end
     function offset_copy_avx1!(A, B)
         @_avx for i=1:size(A,1), j=1:size(B,2)
-	    @inbounds A[i,j+2] = B[i,j]
+              @inbounds A[i,j+2] = B[i,j]
         end
     end
     function offset_copyavx2!(A, B)
         @avx for i=1:size(A,1), j=1:size(B,2)
             Bᵢⱼ = B[i,j]
-	    A[i,j+2] = Bᵢⱼ
+            A[i,j+2] = Bᵢⱼ
         end
     end
     function offset_copy_avx2!(A, B)
         @_avx for i=1:size(A,1), j=1:size(B,2)
             Bᵢⱼ = B[i,j]
-	    A[i,j+2] = Bᵢⱼ
+            A[i,j+2] = Bᵢⱼ
         end
     end
     function make2point3avx!(x)
diff --git a/test/gemm.jl b/test/gemm.jl
diff --git a/test/ifelsemasks.jl b/test/ifelsemasks.jl
diff --git a/test/special.jl b/test/special.jl

Original file line number	Diff line number	Diff line change
`@@ -7,7 +7,7 @@ void gemm_mnk(double* restrict C, double* restrict A, double* restrict B, long M`
`7`	`7`	`for (long m = 0; m < M; m++){`
`8`	`8`	`for (long n = 0; n < N; n++){`
`9`	`9`	`for (long k = 0; k < K; k++){`
`10`		`- C[m + nM] += A[m + kM] * B[k + n*K];`
	`10`	`+ C[m + nM] += A[m + kM] * B[k + n*K];`
`11`	`11`	`}`
`12`	`12`	`}`
`13`	`13`	`}`
`@@ -20,7 +20,7 @@ void gemm_mkn(double* restrict C, double* restrict A, double* restrict B, long M`
`20`	`20`	`for (long m = 0; m < M; m++){`
`21`	`21`	`for (long k = 0; k < K; k++){`
`22`	`22`	`for (long n = 0; n < N; n++){`
`23`		`- C[m + nM] += A[m + kM] * B[k + n*K];`
	`23`	`+ C[m + nM] += A[m + kM] * B[k + n*K];`
`24`	`24`	`}`
`25`	`25`	`}`
`26`	`26`	`}`
`@@ -33,7 +33,7 @@ void gemm_nmk(double* restrict C, double* restrict A, double* restrict B, long M`
`33`	`33`	`for (long n = 0; n < N; n++){`
`34`	`34`	`for (long m = 0; m < M; m++){`
`35`	`35`	`for (long k = 0; k < K; k++){`
`36`		`- C[m + nM] += A[m + kM] * B[k + n*K];`
	`36`	`+ C[m + nM] += A[m + kM] * B[k + n*K];`
`37`	`37`	`}`
`38`	`38`	`}`
`39`	`39`	`}`
`@@ -46,7 +46,7 @@ void gemm_nkm(double* restrict C, double* restrict A, double* restrict B, long M`
`46`	`46`	`for (long n = 0; n < N; n++){`
`47`	`47`	`for (long k = 0; k < K; k++){`
`48`	`48`	`for (long m = 0; m < M; m++){`
`49`		`- C[m + nM] += A[m + kM] * B[k + n*K];`
	`49`	`+ C[m + nM] += A[m + kM] * B[k + n*K];`
`50`	`50`	`}`
`51`	`51`	`}`
`52`	`52`	`}`
`@@ -59,7 +59,7 @@ void gemm_kmn(double* restrict C, double* restrict A, double* restrict B, long M`
`59`	`59`	`for (long k = 0; k < K; k++){`
`60`	`60`	`for (long m = 0; m < M; m++){`
`61`	`61`	`for (long n = 0; n < N; n++){`
`62`		`- C[m + nM] += A[m + kM] * B[k + n*K];`
	`62`	`+ C[m + nM] += A[m + kM] * B[k + n*K];`
`63`	`63`	`}`
`64`	`64`	`}`
`65`	`65`	`}`
`@@ -72,7 +72,7 @@ void gemm_knm(double* restrict C, double* restrict A, double* restrict B, long M`
`72`	`72`	`for (long k = 0; k < K; k++){`
`73`	`73`	`for (long n = 0; n < N; n++){`
`74`	`74`	`for (long m = 0; m < M; m++){`
`75`		`- C[m + nM] += A[m + kM] * B[k + n*K];`
	`75`	`+ C[m + nM] += A[m + kM] * B[k + n*K];`
`76`	`76`	`}`
`77`	`77`	`}`
`78`	`78`	`}`
`@@ -85,7 +85,7 @@ void AtmulB(double* restrict C, double* restrict At, double* restrict B, long M,`
`85`	`85`	`for (long n = 0; n < N; n++){`
`86`	`86`	`for (long m = 0; m < M; m++){`
`87`	`87`	`for (long k = 0; k < K; k++){`
`88`		`- C[m + nM] += At[k + mK] * B[k + n*K];`
	`88`	`+ C[m + nM] += At[k + mK] * B[k + n*K];`
`89`	`89`	`}`
`90`	`90`	`}`
`91`	`91`	`}`
`@@ -98,7 +98,7 @@ void AmulBt(double* restrict C, double* restrict A, double* restrict Bt, long M,`
`98`	`98`	`for (long k = 0; k < K; k++){`
`99`	`99`	`for (long n = 0; n < N; n++){`
`100`	`100`	`for (long m = 0; m < M; m++){`
`101`		`- C[m + nM] += A[m + Mk] * Bt[n + N*k];`
	`101`	`+ C[m + nM] += A[m + Mk] * Bt[n + N*k];`
`102`	`102`	`}`
`103`	`103`	`}`
`104`	`104`	`}`
`@@ -111,7 +111,7 @@ void AtmulBt(double* restrict C, double* restrict A, double* restrict Bt, long M`
`111`	`111`	`for (long n = 0; n < N; n++){`
`112`	`112`	`for (long k = 0; k < K; k++){`
`113`	`113`	`for (long m = 0; m < M; m++){`
`114`		`- C[m + nM] += A[k + Km] * Bt[n + N*k];`
	`114`	`+ C[m + nM] += A[k + Km] * Bt[n + N*k];`
`115`	`115`	`}`
`116`	`116`	`}`
`117`	`117`	`}`
`@@ -249,9 +249,9 @@ void filter2d(double* restrict B, double* restrict A, double* restrict K, long M`
`249`	`249`	`for (long ma = offset; ma < M-offset; ma++){`
`250`	`250`	`double tmp = 0.0;`
`251`	`251`	`for (long nk = -offset; nk < offset + 1; nk++){`
`252`		`- for (long mk = -offset; mk < offset + 1; mk++){`
`253`		`- tmp += A[(ma+mk) + (na+nk)M] K[(mk+offset) + (nk+offset)(2offset+1)];`
`254`		`- }`
	`252`	`+ for (long mk = -offset; mk < offset + 1; mk++){`
	`253`	`+ tmp += A[(ma+mk) + (na+nk)M] K[(mk+offset) + (nk+offset)(2offset+1)];`
	`254`	`+ }`
`255`	`255`	`}`
`256`	`256`	`B[(ma-offset) + (na-offset) * (M-2*offset)] = tmp;`
`257`	`257`	`}`
`@@ -263,9 +263,9 @@ void filter2d3x3(double* restrict B, double* restrict A, double* restrict K, lon`
`263`	`263`	`for (long ma = offset; ma < M-offset; ma++){`
`264`	`264`	`double tmp = 0.0;`
`265`	`265`	`for (long nk = -offset; nk < offset + 1; nk++){`
`266`		`- for (long mk = -offset; mk < offset + 1; mk++){`
`267`		`- tmp += A[(ma+mk) + (na+nk)M] K[(mk+offset) + (nk+offset)(2offset+1)];`
`268`		`- }`
	`266`	`+ for (long mk = -offset; mk < offset + 1; mk++){`
	`267`	`+ tmp += A[(ma+mk) + (na+nk)M] K[(mk+offset) + (nk+offset)(2offset+1)];`
	`268`	`+ }`
`269`	`269`	`}`
`270`	`270`	`B[(ma-offset) + (na-offset) * (M-2*offset)] = tmp;`
`271`	`271`	`}`
Original file line number	Diff line number	Diff line change
`@@ -45,9 +45,9 @@ void conv(double* B, double* A, double* K, long M, long N){`
`45`	`45`	`for (long j = offset; j < M-offset; j++){`
`46`	`46`	`double tmp = 0.0;`
`47`	`47`	`for (long k = -offset; k < offset + 1; k++){`
`48`		`- for (long l = -offset; l < offset + 1; l++){`
`49`		`- tmp += A[(j+l) + (i+k)M] K[(l+offset) + (k+offset)(2offset+1)];`
`50`		`- }`
	`48`	`+ for (long l = -offset; l < offset + 1; l++){`
	`49`	`+ tmp += A[(j+l) + (i+k)M] K[(l+offset) + (k+offset)(2offset+1)];`
	`50`	`+ }`
`51`	`51`	`}`
`52`	`52`	`B[(j-offset) + (i-offset) * (M-2*offset)] = tmp;`
`53`	`53`	`}`
-Original file line number
+Diff line change
         end
         p += pc
     end
 -	p
 +    p
 end
 maxdeg = 20; nbasis = 1_000; dim = 15;