JuliaAI
diff --git a/‎Project.toml‎
Lines changed: 1 addition & 1 deletion b/‎Project.toml‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎src/MLJLinearModels.jl‎
Lines changed: 0 additions & 2 deletions b/‎src/MLJLinearModels.jl‎
Lines changed: 0 additions & 2 deletions
diff --git a/‎src/fit/default.jl‎
Lines changed: 1 addition & 13 deletions b/‎src/fit/default.jl‎
Lines changed: 1 addition & 13 deletions
diff --git a/‎src/glr/d_l2loss.jl‎
Lines changed: 9 additions & 4 deletions b/‎src/glr/d_l2loss.jl‎
Lines changed: 9 additions & 4 deletions
diff --git a/‎src/glr/d_logistic.jl‎
Lines changed: 50 additions & 35 deletions b/‎src/glr/d_logistic.jl‎
Lines changed: 50 additions & 35 deletions
@@ -1,7 +1,7 @@
 name = "MLJLinearModels"
 uuid = "6ee0df7b-362f-4a72-a706-9e79364fb692"
 authors = ["Thibaut Lienart <[email protected]>"]
-version = "0.3.4"
+version = "0.3.5"
 
 [deps]
 DocStringExtensions = "ffbed154-4ef7-542d-bbb7-c09d3a79fcae"
 
@@ -14,8 +14,6 @@ const MMI       = MLJModelInterface
 const AVR       = AbstractVector{<:Real}
 const Option{T} = Union{Nothing,T}
 
-include("scratchspace.jl")
-
 include("utils.jl")
 
 # > Loss / penalty definitions <
 
@@ -36,17 +36,5 @@ the loss and penalty of the model. A method can, in some cases, be specified.
 function fit(glr::GLR, X::AbstractMatrix{<:Real}, y::AVR;
              solver::Solver=_solver(glr, size(X)))
     check_nrows(X, y)
-    n, p = size(X)
-    p += Int(glr.fit_intercept)
-    # allocate cache for temporary computations of size n/p
-    # which are frequent but otherwise un-important so that
-    # we can reduce the overall number of allocations
-    # these are const Refs defined when the module is loaded
-    c = glr.loss isa MultinomialLoss ? maximum(y) : 0
-    allocate(n, p, c)
-    # effective call to fit routine
-    θ = _fit(glr, solver, X, y)
-    # de-allocate cache
-    deallocate()
-    return θ
+    return _fit(glr, solver, X, y)
 end
@@ -15,7 +15,10 @@
 function Hv!(glr::GLR{L2Loss,<:L2R}, X, y)
     n, p = size(X)
     λ    = getscale(glr.penalty)
+    # scratch allocation
+    SCRATCH_N = zeros(n)
     if glr.fit_intercept
+        SCRATCH_P = zeros(p)
         # H = [X 1]'[X 1] + λ I
         # rows a 1:p = [X'X + λI | X'1]
         # row  e end = [1'X      | n+λι] where ι is 1 if glr.penalize_intercept
@@ -25,11 +28,11 @@ function Hv!(glr::GLR{L2Loss,<:L2R}, X, y)
             a   = 1:p
             Hvₐ = view(Hv, a)
             vₐ  = view(v,  a)
-            Xt1 = view(SCRATCH_P[], a)
+            Xt1 = SCRATCH_P
             copyto!(Xt1, sum(X, dims=1))  # -- X'1 (note: sum will allocate)
             vₑ  = v[end]
             # update for the first p rows   -- (X'X + λI)v[1:p] + (X'1)v[end]
-            Xvₐ = SCRATCH_N[]
+            Xvₐ = SCRATCH_N
             mul!(Xvₐ, X, vₐ)
             mul!(Hvₐ, X', Xvₐ)
             Hvₐ .+= λ .* vₐ .+ Xt1 .* vₑ
@@ -38,7 +41,7 @@ function Hv!(glr::GLR{L2Loss,<:L2R}, X, y)
         end
     else
         (Hv, v) -> begin
-            Xv = SCRATCH_N[]
+            Xv = SCRATCH_N
             mul!(Xv, X, v)       # -- Xv
             mul!(Hv, X', Xv)     # -- X'Xv
             Hv .+= λ .* v        # -- X'Xv + λv
@@ -59,9 +62,11 @@ end
 
 function smooth_fg!(glr::GLR{L2Loss,<:ENR}, X, y)
     λ = getscale_l2(glr.penalty)
+    # scratch allocation
+    SCRATCH_N = zeros(size(X, 1))
     (g, θ) -> begin
         # cache contains the residuals (Xθ-y)
-        r = SCRATCH_N[]
+        r = SCRATCH_N
         get_residuals!(r, X, θ, y) # -- r = Xθ-y
         apply_Xt!(g, X, r)
         g .+= λ .* θ
 
@@ -10,18 +10,23 @@
 # ---------------------------------------------------------
 
 function fgh!(glr::GLR{LogisticLoss,<:L2R}, X, y)
-    J = objective(glr) # GLR objective (loss+penalty)
-    p = size(X, 2)
-    λ = getscale(glr.penalty)
+    J    = objective(glr) # GLR objective (loss+penalty)
+    n, p = size(X)
+    λ    = getscale(glr.penalty)
+    # scratch allocation
+    SCRATCH_N  = zeros(n)
+    SCRATCH_N2 = zeros(n)
+    SCRATCH_N3 = zeros(n)
     if glr.fit_intercept
+        SCRATCH_P = zeros(p)
         (f, g, H, θ) -> begin
-            Xθ = SCRATCH_N[]
+            Xθ = SCRATCH_N
             apply_X!(Xθ, X, θ)                       # -- Xθ = apply_X(X, θ)
             # precompute σ(yXθ) use -σ(-x) = (σ(x)-1)
-            w  = SCRATCH_N2[]
+            w  = SCRATCH_N2
             w .= σ.(Xθ .* y)                         # -- w  = σ.(Xθ .* y)
             g === nothing || begin
-                t  = SCRATCH_N3[]
+                t  = SCRATCH_N3
                 t .= y .* (w .- 1.0)                 # -- t = y .* (w .- 1.0)
                 apply_Xt!(g, X, t)                   # -- g = X't
                 g .+= λ .* θ
@@ -33,7 +38,7 @@ function fgh!(glr::GLR{LogisticLoss,<:L2R}, X, y)
                 # probably not really worth it
                 ΛX = w .* X                           # !! big allocs
                 mul!(view(H, 1:p, 1:p), X', ΛX)       # -- H[1:p,1:p] = X'ΛX
-                ΛXt1 = view(SCRATCH_P[], 1:p)
+                ΛXt1 = SCRATCH_P
                 copyto!(ΛXt1, sum(ΛX, dims=1))        # -- (ΛX)'1
                 @inbounds for i = 1:p
                     H[i, end] = H[end, i] = ΛXt1[i]   # -- H[:,p+1] = (ΛX)'1
@@ -47,12 +52,12 @@ function fgh!(glr::GLR{LogisticLoss,<:L2R}, X, y)
         # see comments above, same computations just no additional things for
         # fit_intercept
         (f, g, H, θ) -> begin
-            Xθ = SCRATCH_N[]
+            Xθ = SCRATCH_N
             apply_X!(Xθ, X, θ)
-            w  = SCRATCH_N2[]
+            w  = SCRATCH_N2
             w .= σ.(y .* Xθ)
             g === nothing || begin
-                t  = SCRATCH_N3[]
+                t  = SCRATCH_N3
                 t .= y .* (w .- 1.0)
                 apply_Xt!(g, X, t)
                 g .+= λ .* θ
@@ -67,26 +72,30 @@ function fgh!(glr::GLR{LogisticLoss,<:L2R}, X, y)
 end
 
 function Hv!(glr::GLR{LogisticLoss,<:L2R}, X, y)
-    p = size(X, 2)
-    λ = getscale(glr.penalty)
+    n, p = size(X)
+    λ    = getscale(glr.penalty)
+    # scratch allocation
+    SCRATCH_N  = zeros(n)
+    SCRATCH_N2 = zeros(n)
     if glr.fit_intercept
+        SCRATCH_P = zeros(p)
         # H = [X 1]'Λ[X 1] + λ I
         # rows a 1:p = [X'ΛX + λI | X'Λ1]
         # row  e end = [1'ΛX      | sum(a)+λ]
         (Hv, θ, v) -> begin
-            Xθ = SCRATCH_N[]
+            Xθ = SCRATCH_N
             apply_X!(Xθ, X, θ)                       # -- Xθ = apply_X(X, θ)
-            w  = SCRATCH_N2[]
+            w  = SCRATCH_N2
             w .= σ.(Xθ .* y)                         # -- w  = σ.(Xθ .* y)
             # view on the first p rows
             a    = 1:p
             Hvₐ  = view(Hv, a)
             vₐ   = view(v,  a)
-            XtΛ1 = view(SCRATCH_P[], 1:p)
+            XtΛ1 = view(SCRATCH_P, 1:p)
             mul!(XtΛ1, X', w)                        # -- X'Λ1; O(np)
             vₑ   = v[end]
             # update for the first p rows -- (X'X + λI)v[1:p] + (X'1)v[end]
-            Xvₐ  = SCRATCH_N[]
+            Xvₐ  = SCRATCH_N
             mul!(Xvₐ, X, vₐ)
             Xvₐ .*=  w                               # --  ΛXvₐ
             mul!(Hvₐ, X', Xvₐ)                       # -- (X'ΛX)vₐ
@@ -97,13 +106,13 @@ function Hv!(glr::GLR{LogisticLoss,<:L2R}, X, y)
         end
     else
         (Hv, θ, v) -> begin
-            Xθ = SCRATCH_N[]
+            Xθ = SCRATCH_N
             apply_X!(Xθ, X, θ)
-            w  = SCRATCH_N2[]
+            w  = SCRATCH_N2
             w .= σ.(Xθ .* y)                # -- σ(yXθ)
-            Xv = SCRATCH_N3[]
+            Xv = SCRATCH_N
             mul!(Xv, X, v)
-            Xv .*= SCRATCH_N2[]                # -- ΛXv
+            Xv .*= SCRATCH_N2               # -- ΛXv
             mul!(Hv, X', Xv)                # -- X'ΛXv
             Hv .+= λ .* v
         end
@@ -144,23 +153,29 @@ function fg!(glr::GLR{MultinomialLoss,<:L2R}, X, y)
     n, p = size(X)
     c    = length(unique(y))
     λ    = getscale(glr.penalty)
+    SCRATCH_N   = zeros(n)
+    SCRATCH_NC  = zeros(n, c)
+    SCRATCH_NC2 = zeros(n, c)
+    SCRATCH_NC3 = zeros(n, c)
+    SCRATCH_NC4 = zeros(n, c)
+    SCRATCH_PC  = zeros(p+Int(glr.fit_intercept), c)
     (f, g, θ) -> begin
-        P  = SCRATCH_NC[]
-        apply_X!(P, X, θ, c)                         # O(npc) store n * c
-        M  = SCRATCH_NC2[]
+        P  = SCRATCH_NC
+        apply_X!(P, X, θ, c, SCRATCH_PC)             # O(npc) store n * c
+        M  = SCRATCH_NC2
         M .= exp.(P)                                 # O(npc) store n * c
         g === nothing || begin
-            ΛM  = SCRATCH_NC3[]
+            ΛM  = SCRATCH_NC3
             ΛM .= M ./ sum(M, dims=2)                # O(nc)  store n * c
-            Q   = SCRATCH_NC4[]
+            Q   = SCRATCH_NC4
             @inbounds for i = 1:n, j=1:c
                 Q[i, j] = ifelse(y[i] == j, 1.0, 0.0)
             end
             ∑ΛM = sum(ΛM, dims=1)
             ∑Q  = sum(Q, dims=1)
             R   = ΛM
             R .-= Q
-            G   = SCRATCH_PC[]
+            G   = SCRATCH_PC
             if glr.fit_intercept
                 mul!(view(G, 1:p, :), X', R)
                 @inbounds for k in 1:c
@@ -179,11 +194,11 @@ function fg!(glr::GLR{MultinomialLoss,<:L2R}, X, y)
             # ms = maximum(P, dims=2)
             # ss = sum(M ./ exp.(ms), dims=2)
             ms   = maximum(P, dims=2)
-            ems  = SCRATCH_N[]
+            ems  = SCRATCH_N
             @inbounds for i in 1:n
                 ems[i] = exp(ms[i])
             end
-            ΛM  = SCRATCH_NC2[] # note that _NC is already linked to P
+            ΛM  = SCRATCH_NC2  # note that _NC is already linked to P
             ΛM .= M ./ ems
             ss  = sum(ΛM, dims=2)
             t   = 0.0
@@ -207,13 +222,13 @@ function Hv!(glr::GLR{MultinomialLoss,<:L2R}, X, y)
     # allocate less but is likely slower; maybe in the future we could have a
     # keyword indicating which one the user wants to use.
     (Hv, θ, v) -> begin
-        P  = apply_X(X, θ, c)    # P_ik = <x_i, θ_k>    // dims n * c; O(npc)
-        Q  = apply_X(X, v, c)    # Q_ik = <x_i, v_k>    // dims n * c; O(npc)
-        M  = exp.(P)             # M_ik = exp<x_i, w_k> // dims n * c;
-        MQ = M .* Q              #                      // dims n * c; O(nc)
-        ρ  = 1 ./ sum(M, dims=2) # ρ_i = 1/Z_i = 1/∑_k exp<x_i, w_k>
-        κ  = sum(MQ, dims=2)     # κ_i  = ∑_k exp<x_i, w_k><x_i, v_k>
-        γ  = κ .* ρ.^2           # γ_i  = κ_i / Z_i^2
+        P  = apply_X(X, θ, c)     # P_ik = <x_i, θ_k> // dims n * c; O(npc)
+        Q  = apply_X(X, v, c)     # Q_ik = <x_i, v_k>    // dims n * c; O(npc)
+        M  = exp.(P)              # M_ik = exp<x_i, w_k> // dims n * c;
+        MQ = M .* Q               #                      // dims n * c; O(nc)
+        ρ  = 1 ./ sum(M, dims=2)  # ρ_i = 1/Z_i = 1/∑_k exp<x_i, w_k>
+        κ  = sum(MQ, dims=2)      # κ_i  = ∑_k exp<x_i, w_k><x_i, v_k>
+        γ  = κ .* ρ.^2            # γ_i  = κ_i / Z_i^2
         # computation of Hv
         U      = (ρ .* MQ) .- (γ .* M)                  # // dims n * c; O(nc)
         Hv_mat = X' * U                                 # // dims n * c; O(npc)