choose_order test updates.

chriselrod · chriselrod · commit 7204ebed12c0 · 2020-04-30T10:28:53.000-04:00
diff --git a/src/determinestrategy.jl b/src/determinestrategy.jl
@@ -880,8 +880,8 @@ function choose_tile(ls::LoopSet)
         while true
             for new_vec ∈ new_order # view to skip first
                 u₁temp, u₂temp, cost_temp = evaluate_cost_tile(ls, new_order, UnrollSymbols(newu₁, newu₂, new_vec))
-                # if cost_temp < lowest_cost
-                if cost_temp ≤ lowest_cost
+                # if cost_temp < lowest_cost # leads to 4 vmovapds
+                if cost_temp ≤ lowest_cost # lead to 2 vmovapds
                     lowest_cost = cost_temp
                     u₁, u₂ = u₁temp, u₂temp
                     best_vec = new_vec
diff --git a/src/lower_compute.jl b/src/lower_compute.jl
@@ -71,7 +71,7 @@ end
 function add_loopvalue!(instrcall::Expr, loopval::Symbol, vectorized::Symbol, u::Int)
     if loopval === vectorized
         if isone(u)
-            push!(instrcall.args, Expr(:call, :valadd, VECTORWIDTHSYMBOL, loopval))
+            push!(instrcall.args, Expr(:call, lv(:valadd), VECTORWIDTHSYMBOL, loopval))
         else
             push!(instrcall.args, Expr(:call, lv(:valmuladd), VECTORWIDTHSYMBOL, u, loopval))
         end
diff --git a/src/lowering.jl b/src/lowering.jl
@@ -78,10 +78,12 @@ function lower_block(
     u₁ = n == u₁loopnum ? UF : u₁
     dontmaskfirsttiles = !isnothing(mask) && vectorizedloopnum == u₂loopnum
     blockq = Expr(:block)
+    delay_u₁ = true
+    # delay_u₁ = false
     for prepost ∈ 1:2
         # !u₁ && !u₂
         lower!(blockq, ops[1,1,prepost,n], ls, unrollsyms, u₁, nothing, mask)
-        if u₁ == 4
+        if !delay_u₁ || u₁ == 4
             lower!(blockq, ops[2,1,prepost,n], ls, unrollsyms, u₁, nothing, mask)
         end
         opsv1 = ops[1,2,prepost,n]
@@ -112,7 +114,7 @@ function lower_block(
                     else # !u₁ &&  u₂
                         lower!(blockq, opsv1, ls, unrollsyms, u₁, t, mask, store)
                     end
-                    if iszero(t) && !store && u₁ != 4 #  u₁ && !u₂
+                    if delay_u₁ && iszero(t) && !store && u₁ != 4 #  u₁ && !u₂
                         # for u ∈ 0:u₁-1     
                         lower!(blockq, ops[2,1,prepost,n], ls, unrollsyms, u₁, nothing, mask)
                         # end
@@ -129,7 +131,7 @@ function lower_block(
                 end
                 nstores == 0 && break
             end
-        elseif u₁ != 4
+        elseif delay_u₁ && u₁ != 4
             # for u ∈ 0:u₁-1     #  u₁ && !u₂
             lower!(blockq, ops[2,1,prepost,n], ls, unrollsyms, u₁, nothing, mask)
             # end
diff --git a/src/operation_evaluation_order.jl b/src/operation_evaluation_order.jl
@@ -81,6 +81,7 @@ function addoptoorder!(
             isnopidentity(ls, op, u₁loop, u₂loop, vectorized, nothing) || push!(lo[isunrolled,1,after_loop,_n], op)
         end
     end
+    # @show op, after_loop
     # isloopvalue(op) || push!(lo[isunrolled,istiled,after_loop,_n], op)
     # all(opp -> iszero(length(reduceddependencies(opp))), parents(op)) &&
     set_upstream_family!(place_after_loop, op, false, loopdependencies(op), identifier(op)) # parents that have already been included are not moved, so no need to check included_vars to filter
diff --git a/test/gemm.jl b/test/gemm.jl
@@ -8,7 +8,8 @@
                  end
                  end);
     lsAmulBt1 = LoopVectorization.LoopSet(AmulBtq1);
-    @test LoopVectorization.choose_order(lsAmulBt1) == (Symbol[:n,:m,:k], :n, :m, :m, Unum, Tnum)
+    # @test LoopVectorization.choose_order(lsAmulBt1) == (Symbol[:n,:m,:k], :n, :m, :m, Unum, Tnum)
+    @test LoopVectorization.choose_order(lsAmulBt1) == (Symbol[:n,:m,:k], :m, :n, :m, Unum, Tnum)
 
     AmulBq1 = :(for m ∈ 1:size(A,1), n ∈ 1:size(B,2)
                 C[m,n] = zeroB
@@ -17,15 +18,17 @@
                 end
                 end)
     lsAmulB1 = LoopVectorization.LoopSet(AmulBq1);
-    @test LoopVectorization.choose_order(lsAmulB1) == (Symbol[:n,:m,:k], :n, :m, :m, Unum, Tnum)
+    # @test LoopVectorization.choose_order(lsAmulB1) == (Symbol[:n,:m,:k], :n, :m, :m, Unum, Tnum)
+    @test LoopVectorization.choose_order(lsAmulB1) == (Symbol[:n,:m,:k], :m, :n, :m, Unum, Tnum)
     AmulBq2 = :(for m ∈ 1:M, n ∈ 1:N
                 C[m,n] = zero(eltype(B))
                 for k ∈ 1:K
                 C[m,n] += A[m,k] * B[k,n]
                 end
                 end)
     lsAmulB2 = LoopVectorization.LoopSet(AmulBq2);
-    @test LoopVectorization.choose_order(lsAmulB2) == (Symbol[:n,:m,:k], :n, :m, :m, Unum, Tnum)
+    # @test LoopVectorization.choose_order(lsAmulB2) == (Symbol[:n,:m,:k], :n, :m, :m, Unum, Tnum)
+    @test LoopVectorization.choose_order(lsAmulB2) == (Symbol[:n,:m,:k], :m, :n, :m, Unum, Tnum)
     AmulBq3 = :(for m ∈ 1:size(A,1), n ∈ 1:size(B,2)
                 ΔCₘₙ = zero(eltype(C))
                 for k ∈ 1:size(A,2)
@@ -34,7 +37,7 @@
                 C[m,n] += ΔCₘₙ
                 end)
     lsAmulB3 = LoopVectorization.LoopSet(AmulBq3);
-    @test LoopVectorization.choose_order(lsAmulB3) == (Symbol[:n,:m,:k], :n, :m, :m, Unum, Tnum)
+    @test LoopVectorization.choose_order(lsAmulB3) == (Symbol[:n,:m,:k], :m, :n, :m, Unum, Tnum)
 
     function AmulB!(C, A, B)
         C .= 0
@@ -113,7 +116,8 @@
                  C[m,n] = α * ΔCₘₙ + β * C[m,n]
                  end);
     lsAmuladd = LoopVectorization.LoopSet(Amuladdq);
-    @test LoopVectorization.choose_order(lsAmuladd) == (Symbol[:n,:m,:k], :n, :m, :m, Unum, Tnum)
+    # @test LoopVectorization.choose_order(lsAmuladd) == (Symbol[:n,:m,:k], :n, :m, :m, Unum, Tnum)
+    @test LoopVectorization.choose_order(lsAmuladd) == (Symbol[:n,:m,:k], :m, :n, :m, Unum, Tnum)
     Atmuladdq = :(for m ∈ 1:size(A,2), n ∈ 1:size(B,2)
                  ΔCₘₙ = zero(eltype(C))
                  for k ∈ 1:size(A,1)
@@ -126,7 +130,8 @@
     # lsAmuladd.operations
     # LoopVectorization.loopdependencies.(lsAmuladd.operations)
     # LoopVectorization.reduceddependencies.(lsAmuladd.operations)
-    @test LoopVectorization.choose_order(lsAtmuladd) == (Symbol[:n,:m,:k], :n, :m, :k, Unum, Tnum)
+    # @test LoopVectorization.choose_order(lsAtmuladd) == (Symbol[:n,:m,:k], :n, :m, :k, Unum, Tnum)
+    @test LoopVectorization.choose_order(lsAtmuladd) == (Symbol[:n,:m,:k], :m, :n, :k, Unum, Tnum)
 
     function AmulB_avx1!(C, A, B)
         @_avx for m ∈ 1:size(A,1), n ∈ 1:size(B,2)
@@ -238,7 +243,8 @@
                 end)
     lsAtmulB = LoopVectorization.LoopSet(AtmulBq);
     # LoopVectorization.choose_order(lsAtmulB)
-    @test LoopVectorization.choose_order(lsAtmulB) == (Symbol[:n,:m,:k], :m, :n, :k, Unum, Tnum)
+    # @test LoopVectorization.choose_order(lsAtmulB) == (Symbol[:n,:m,:k], :m, :n, :k, Unum, Tnum)
+    @test LoopVectorization.choose_order(lsAtmulB) == (Symbol[:n,:m,:k], :n, :m, :k, Unum, Tnum)
     
     function AtmulBavx1!(C, A, B)
         @avx for n ∈ 1:size(C,2), m ∈ 1:size(C,1)
@@ -319,9 +325,11 @@
                end)
     lsr2amb = LoopVectorization.LoopSet(r2ambq);
     if LoopVectorization.VectorizationBase.REGISTER_COUNT == 32
-        @test LoopVectorization.choose_order(lsr2amb) == ([:n, :m, :k], :n, :m, :m, 3, 3)
+        # @test LoopVectorization.choose_order(lsr2amb) == ([:n, :m, :k], :n, :m, :m, 3, 3)
+        @test LoopVectorization.choose_order(lsr2amb) == ([:n, :m, :k], :m, :n, :m, 3, 6)
     else
-        @test LoopVectorization.choose_order(lsr2amb) == ([:n, :m, :k], :n, :m, :m, 2, 2)
+        # @test LoopVectorization.choose_order(lsr2amb) == ([:n, :m, :k], :n, :m, :m, 2, 2)
+        @test LoopVectorization.choose_order(lsr2amb) == ([:n, :m, :k], :m, :n, :m, 2, 4)
     end
     function rank2AmulBavx!(C, Aₘ, Aₖ, B)
         @avx for m ∈ 1:size(C,1), n ∈ 1:size(C,2)
diff --git a/test/gemv.jl b/test/gemv.jl
@@ -2,7 +2,8 @@ using LoopVectorization
 using Test
 
 @testset "GEMV" begin
-    Unum, Tnum = LoopVectorization.VectorizationBase.REGISTER_COUNT == 16 ? (3, 4) : (4, 6)
+    # Unum, Tnum = LoopVectorization.VectorizationBase.REGISTER_COUNT == 16 ? (3, 4) : (4, 6)
+    Unum, Tnum = LoopVectorization.VectorizationBase.REGISTER_COUNT == 16 ? (3, 4) : (4, 4)
     gemvq = :(for i ∈ eachindex(y)
               yᵢ = 0.0
               for j ∈ eachindex(x)
@@ -11,7 +12,11 @@ using Test
               y[i] = yᵢ
               end)
     lsgemv = LoopVectorization.LoopSet(gemvq);
-    @test LoopVectorization.choose_order(lsgemv) == (Symbol[:i, :j], :j, :i, :i, Unum, Tnum)
+    if LoopVectorization.VectorizationBase.REGISTER_COUNT == 16
+        @test LoopVectorization.choose_order(lsgemv) == (Symbol[:i, :j], :j, :i, :i, Unum, Tnum)
+    else
+        @test LoopVectorization.choose_order(lsgemv) == (Symbol[:i, :j], :i, :j, :i, 4, 4)
+    end
 
     function mygemv!(y, A, x)
         @inbounds for i ∈ eachindex(y)
@@ -127,7 +132,11 @@ using Test
               G[d1,κ] = z
               end)
     lsgemv = LoopVectorization.LoopSet(gemvq);
-    @test LoopVectorization.choose_order(lsgemv) == ([:d1,:d2], :d2, :d1, :d2, Unum, Tnum)
+    if LoopVectorization.VectorizationBase.REGISTER_COUNT == 16
+        @test LoopVectorization.choose_order(lsgemv) == ([:d1,:d2], :d2, :d1, :d2, Unum, Tnum)
+    else
+        @test LoopVectorization.choose_order(lsgemv) == ([:d1,:d2], :d1, :d2, :d2, 4, 4)
+    end
     function AtmulvB_avx3!(G, B,κ)
         d = size(G,1)
         @_avx for d1=1:d
@@ -144,7 +153,8 @@ using Test
            end
            end)
     lsp = LoopVectorization.LoopSet(pq);
-    @test LoopVectorization.choose_order(lsp) == ([:d1, :d2], :d2, :d1, :d2, Unum, Tnum)
+    # @test LoopVectorization.choose_order(lsp) == ([:d1, :d2], :d2, :d1, :d2, Unum, Tnum)
+    @test LoopVectorization.choose_order(lsp) == ([:d1, :d2], :d1, :d2, :d2, Unum, Tnum)
     # lsp.preamble_symsym
 
     function hhavx!(A::AbstractVector{T}, B, C, D) where {T}
diff --git a/test/ifelsemasks.jl b/test/ifelsemasks.jl
@@ -406,18 +406,15 @@ T = Float32
 
     ai = [rand(Bool) for _ in 1:71];
     bi = [rand(Bool) for _ in 1:71];
-    if LoopVectorization.VectorizationBase.AVX2 || Base.libllvm_version ≥ v"8" #FIXME Why doesn't this work on Travis Ivy Bridge Julia 1.1?
+    # if LoopVectorization.VectorizationBase.AVX2 || Base.libllvm_version ≥ v"8" #FIXME Why doesn't this work on Travis Ivy Bridge Julia 1.1?
         @test (ai .& bi) == (@avx ai .& bi)
         @test (ai .| bi) == (@avx ai .| bi)
         @test (ai .⊻ bi) == (@avx ai .⊻ bi)
-    else
-        @test_broken (ai .& bi) == (@avx ai .& bi)
-        @test_broken (ai .| bi) == (@avx ai .| bi)
-        @test_broken (ai .⊻ bi) == (@avx ai .⊻ bi)
-    #     @test_broken (Ai .& bi) == (@avx Ai .& bi)
-    #     @test_broken (ai .| Bi) == (@avx ai .| Bi)
-    #     @test_broken (Ai .⊻ Bi) == (@avx Ai .⊻ Bi)
-    end
+    # else
+    #     @test_broken (ai .& bi) == (@avx ai .& bi)
+    #     @test_broken (ai .| bi) == (@avx ai .| bi)
+    #     @test_broken (ai .⊻ bi) == (@avx ai .⊻ bi)
+    # end
     a = bitrand(127); b = bitrand(127);
     @test (a .& b) == (@avx a .& b)
     @test (a .| b) == (@avx a .| b)
diff --git a/test/miscellaneous.jl b/test/miscellaneous.jl
@@ -4,13 +4,15 @@ using Test
 
 @testset "Miscellaneous" begin
 
-    Unum, Tnum = LoopVectorization.VectorizationBase.REGISTER_COUNT == 16 ? (3, 4) : (4, 4)
+    # Unum, Tnum = LoopVectorization.VectorizationBase.REGISTER_COUNT == 16 ? (3, 4) : (4, 4)
+    Unum, Tnum = LoopVectorization.VectorizationBase.REGISTER_COUNT == 16 ? (3, 4) : (4, 6)
     dot3q = :(for m ∈ 1:M, n ∈ 1:N
               s += x[m] * A[m,n] * y[n]
               end);
     lsdot3 = LoopVectorization.LoopSet(dot3q);
     if LoopVectorization.VectorizationBase.REGISTER_COUNT == 32
-        @test LoopVectorization.choose_order(lsdot3) == ([:n, :m], :n, :m, :m, Unum, Tnum)#&-2
+        # @test LoopVectorization.choose_order(lsdot3) == ([:n, :m], :n, :m, :m, Unum, Tnum)#&-2
+        @test LoopVectorization.choose_order(lsdot3) == ([:n, :m], :m, :n, :m, Unum, Tnum)#&-2
     else
         @test LoopVectorization.choose_order(lsdot3) == ([:n, :m], :m, :n, :m, Unum, Tnum)#&-2
     end
@@ -64,7 +66,8 @@ using Test
     if LoopVectorization.VectorizationBase.REGISTER_COUNT == 32
         @test LoopVectorization.choose_order(lssubcol) == (Symbol[:j,:i], :j, :i, :j, 4, 6)
     else
-        @test LoopVectorization.choose_order(lssubcol) == ([:j, :i], :j, :i, :j, 3, 4)#&-2
+        # @test LoopVectorization.choose_order(lssubcol) == ([:j, :i], :j, :i, :j, 3, 4)#&-2
+        @test LoopVectorization.choose_order(lssubcol) == ([:j, :i], :i, :j, :j, 4, 4)#&-2
     end
     ## @avx is SLOWER!!!!
     ## need to fix!
@@ -93,7 +96,8 @@ using Test
     if LoopVectorization.VectorizationBase.REGISTER_COUNT == 32
         @test LoopVectorization.choose_order(lscolsum) == (Symbol[:j,:i], :j, :i, :j, 4, 6)
     else
-        @test LoopVectorization.choose_order(lscolsum) == (Symbol[:j,:i], :j, :i, :j, 3, 4)
+        # @test LoopVectorization.choose_order(lscolsum) == (Symbol[:j,:i], :j, :i, :j, 3, 4)
+        @test LoopVectorization.choose_order(lscolsum) == (Symbol[:j,:i], :i, :j, :j, 4, 4)
     end
     # my colsum is wrong (by 0.25), but slightly more interesting
     function mycolsum!(x, A)
@@ -133,7 +137,8 @@ using Test
     if LoopVectorization.VectorizationBase.REGISTER_COUNT == 32
         @test LoopVectorization.choose_order(lsvar) == (Symbol[:j,:i], :j, :i, :j, 4, 6)
     else
-        @test LoopVectorization.choose_order(lsvar) == (Symbol[:j,:i], :i, :j, :j, 4, 4)
+        # @test LoopVectorization.choose_order(lsvar) == (Symbol[:j,:i], :i, :j, :j, 4, 4)
+        @test LoopVectorization.choose_order(lsvar) == (Symbol[:j,:i], :j, :i, :j, 2, 4)
     end
     
     function myvar!(s², A, x̄)