ThreadedSparseMatrixCSC performance fix

rasmushenningsson · rasmushenningsson · commit 88eec7a0a032 · 2020-03-24T22:18:11.000+01:00
Changed the inner loop of mul!(C::StridedVecOrMat,
X::AdjOrTransStridedOrTriangularMatrix, A::ThreadedSparseMatrixCSC,
α::Number, β::Number)
to mimic the SparseVector version which had better performance.
diff --git a/src/ThreadedSparseArrays.jl b/src/ThreadedSparseArrays.jl
@@ -87,11 +87,21 @@ function mul!(C::StridedVecOrMat, X::AdjOrTransStridedOrTriangularMatrix, A::Thr
     if β != 1
         β != 0 ? rmul!(C, β) : fill!(C, zero(eltype(C)))
     end
+    # Threads.@threads for col = 1:size(A, 2)
+    #     @inbounds for multivec_row=1:mX, k=getcolptr(A)[col]:(getcolptr(A)[col+1]-1)
+    #         C[multivec_row, col] += α * X[multivec_row, rv[k]] * nzv[k] # perhaps suboptimal position of α?
+    #     end
+    # end
     Threads.@threads for col = 1:size(A, 2)
-        @inbounds for multivec_row=1:mX, k=getcolptr(A)[col]:(getcolptr(A)[col+1]-1)
-            C[multivec_row, col] += α * X[multivec_row, rv[k]] * nzv[k] # perhaps suboptimal position of α?
+        @inbounds for k=getcolptr(A)[col]:(getcolptr(A)[col+1]-1)
+            j = rv[k]
+            αv = nzv[k]*α
+            for multivec_row=1:mX
+                C[multivec_row, col] += X[multivec_row, j] * αv
+            end
         end
     end
+
     C
 end