Merge pull request #35 from SciML/lbfgs

Vaibhavdixit02 · web-flow · commit d8c0343c6b90 · 2024-01-14T19:53:21.000-05:00
lbfgs
diff --git a/Project.toml b/Project.toml
@@ -4,15 +4,21 @@ authors = ["Utkarsh <rajpututkarsh530@gmail.com> and contributors"]
 version = "1.0.0-DEV"
 
 [deps]
-DiffEqGPU = "071ae1c0-96b5-11e9-1965-c90190d839ea"
+Adapt = "79e6a3ab-5dfb-504d-930d-738a2a938a0e"
+CUDA = "052768ef-5323-5732-b1bb-66c8b64840ba"
+ForwardDiff = "f6369f11-7733-5829-9624-2563aa707210"
 KernelAbstractions = "63c18a36-062a-441e-b654-da1e3ab1ce7c"
 MLDatasets = "eb30cadb-4394-5ae3-aed4-317e484a6458"
+NonlinearSolve = "8913a72c-1f9b-4ce2-8d82-65094dcecaec"
+Optimization = "7f7a1694-90dd-40f0-9382-eb1efda571ba"
 QuasiMonteCarlo = "8a4e6c94-4038-4cdc-81c3-7e6ffdb2a71b"
 Random = "9a3f8284-a2c9-5f02-9a11-845980a1fd5c"
 SciMLBase = "0bca4576-84f4-4d90-8ffe-ffa030f20462"
 Setfield = "efcf1570-3423-57d1-acb7-fd33fddbac46"
 SimpleChains = "de6bee2f-e2f4-4ec7-b6ed-219cc6f6e9e5"
+SimpleNonlinearSolve = "727e6d20-b764-4bd8-a329-72de5adea6c7"
 StaticArrays = "90137ffa-7385-5640-81b9-e52037218182"
+Zygote = "e88e6eb3-aa80-5325-afca-941959d7151f"
 
 [compat]
 julia = "1.6"
diff --git a/src/PSOGPU.jl b/src/PSOGPU.jl
@@ -1,9 +1,10 @@
 module PSOGPU
 
 using SciMLBase, StaticArrays, Setfield, KernelAbstractions
-using QuasiMonteCarlo
+using QuasiMonteCarlo, Optimization, SimpleNonlinearSolve, ForwardDiff
+import Adapt
 
-import DiffEqGPU: GPUTsit5, vectorized_asolve, make_prob_compatible
+# import DiffEqGPU: GPUTsit5, vectorized_asolve, make_prob_compatible
 
 ## Use lb and ub either as StaticArray or pass them separately as CuArrays
 ## Passing as CuArrays makes more sense, or maybe SArray? The based on no. of dimension
@@ -47,10 +48,12 @@ end
 
 include("./algorithms.jl")
 include("./utils.jl")
-include("./ode_pso.jl")
+# include("./ode_pso.jl")
 include("./kernels.jl")
 include("./lowerlevel_solve.jl")
 include("./solve.jl")
+include("./lbfgs.jl")
+include("./hybrid.jl")
 
 export ParallelPSOKernel,
     ParallelSyncPSOKernel, ParallelPSOArray, SerialPSO, OptimizationProblem, solve
diff --git a/src/algorithms.jl b/src/algorithms.jl
@@ -1,5 +1,5 @@
 
-abstract type PSOAlogrithm end
+abstract type PSOAlgorithm end
 
 """
 ```julia
@@ -23,7 +23,7 @@ This is the price to be paid to fuse all the updates into a single kernel. Techn
 updates can be used to fix this.
 
 """
-struct ParallelPSOKernel{Backend, T, G, H} <: PSOAlogrithm
+struct ParallelPSOKernel{Backend, T, G, H} <: PSOAlgorithm
     num_particles::Int
     global_update::Bool
     backend::Backend
@@ -46,7 +46,7 @@ on a GPU. However, it requires a synchronization after each generation to calcul
 - backend: defaults to `CPU()`. The KernelAbstractions backend for performing the computation.
 
 """
-struct ParallelSyncPSOKernel{Backend, T, G, H} <: PSOAlogrithm
+struct ParallelSyncPSOKernel{Backend, T, G, H} <: PSOAlgorithm
     num_particles::Int
     backend::Backend
     θ::T
@@ -73,7 +73,7 @@ This is the price to be paid to fuse all the updates into a single kernel. Techn
 updates can be used to fix this.
 
 """
-struct ParallelPSOArray{T, G, H} <: PSOAlogrithm
+struct ParallelPSOArray{T, G, H} <: PSOAlgorithm
     num_particles::Int
     θ::T
     γ::G
@@ -91,7 +91,7 @@ Serial Particle Swarm Optimization on a CPU.
 - num_particles: Number of particles in the simulation
 
 """
-struct SerialPSO{T, G, H} <: PSOAlogrithm
+struct SerialPSO{T, G, H} <: PSOAlgorithm
     num_particles::Int
     θ::T
     γ::G
@@ -116,5 +116,5 @@ function SerialPSO(num_particles::Int; θ = θ_default, γ = γ_default, h = sqr
     SerialPSO(num_particles, θ, γ, h)
 end
 
-SciMLBase.allowsbounds(::PSOAlogrithm) = true
-SciMLBase.allowsconstraints(::PSOAlogrithm) = true
+SciMLBase.allowsbounds(::PSOAlgorithm) = true
+SciMLBase.allowsconstraints(::PSOAlgorithm) = true
diff --git a/src/hybrid.jl b/src/hybrid.jl
@@ -0,0 +1,88 @@
+struct HybridPSOLBFGS
+    pso::PSOAlgorithm
+    lbfgs::LBFGS
+end
+
+function HybridPSOLBFGS(; pso = PSOGPU.ParallelPSOKernel(100 ; global_update = false), lbfgs = LBFGS())
+    HybridPSOLBFGS(pso, lbfgs)
+end
+
+@kernel function lbfgs_run!(nlcaches, x0s, result)
+    i = @index(Global, Linear)
+    # nlcache = reinit!(nlcaches[i], x0s[i])
+    # @show nlcache.u
+    res = solve!(nlcaches[i])
+    # @show res
+    # @show res.resid
+    result[i] = res
+end
+
+@kernel function simplelbfgs_run!(nlprob, x0s, result)
+    i = @index(Global, Linear)
+    nlcache = remake(nlprob; u0 = x0s[i])
+    result[i] = solve(nlcache, SimpleLimitedMemoryBroyden(; threshold = 10))
+end
+
+@kernel function simplebfgs_run!(nlprob, x0s, result, opt, maxiters)
+    i = @index(Global, Linear)
+    nlcache = remake(nlprob; u0 = x0s[i])
+    sol = SciMLBase.__solve(nlcache, opt, maxiters = maxiters, abstol = 1f-6, reltol = 1f-6)
+    result[i] = sol.u
+end
+
+function SciMLBase.__solve(prob::SciMLBase.OptimizationProblem, opt::HybridPSOLBFGS, args...; maxiters = 1000, kwargs...)
+    t0 = time()
+    psoalg = opt.pso
+    lbfgsalg = opt.lbfgs
+
+    sol_pso = solve(prob, psoalg, args...; maxiters, kwargs...)
+
+    # @show sol_pso.u
+
+    x0s = sol_pso.original
+    # @show prob.u0
+    # @show x0s
+    prob = remake(prob, lb = nothing, ub = nothing)
+    # @show length(x0s)
+    # f = Optimization.instantiate_function(prob.f, prob.u0, prob.f.adtype, prob.p, 0)
+    f = Base.Fix2(prob.f.f, prob.p)
+    function _g(θ, _p = nothing)
+        return ForwardDiff.gradient(f , θ)
+    end
+    # @show prob.u0
+    # nlcaches = [init(NonlinearProblem(NonlinearFunction(_g), x0), LimitedMemoryBroyden(; threshold = lbfgsalg.m, linesearch = LiFukushimaLineSearch()))
+    #     for x0 in x0s
+    # ]
+    # @show nlcaches[1]
+    # @show ismutable(nlcaches[1])
+    backend = lbfgsalg.backend
+    # kernel = lbfgs_run!(backend)
+    # result = KernelAbstractions.allocate(lbfgsalg.backend, SciMLBase.NonlinearSolution, length(x0s))
+
+    # kernel(nlcaches, x0s, result; ndrange = length(x0s))
+
+    # kernel = simplelbfgs_run!(backend)
+    # result = KernelAbstractions.allocate(backend, SciMLBase.NonlinearSolution, length(x0s))
+    # nlprob = NonlinearProblem(NonlinearFunction(_g), prob.u0)
+    # kernel(nlprob, x0s, result; ndrange = length(x0s))
+
+    kernel = simplebfgs_run!(backend)
+    result = KernelAbstractions.allocate(backend, typeof(prob.u0), length(x0s))
+    nlprob = NonlinearProblem{false}(_g, prob.u0)
+
+    kernel(nlprob, x0s, result, SimpleLimitedMemoryBroyden(; threshold = lbfgsalg.m, linesearch = Val(true)), maxiters; ndrange = length(x0s))
+
+    # @show result
+    t1 = time()
+    sol_bfgs = (x -> prob.f(x, prob.p)).(result)
+    # sol_bfgs = [prob.f(θ, prob.p) for θ in result]
+    # @show typeof(sol_bfgs)
+
+    sol_bfgs = (x -> isnan(x) ? Inf32 : x).(sol_bfgs)
+    # @show minimum(sol_bfgs)
+
+    minobj, ind = findmin(sol_bfgs)
+
+    SciMLBase.build_solution(SciMLBase.DefaultOptimizationCache(prob.f, prob.p), opt,
+     view(result, ind) , minobj)
+end
diff --git a/src/lbfgs.jl b/src/lbfgs.jl
@@ -0,0 +1,35 @@
+struct LBFGS{Backend}
+    ϵ::Float64
+    m::Int
+    backend::Backend
+end
+
+function LBFGS(; ϵ = 1e-8, m = 10, backend = CPU())
+    LBFGS(ϵ, m, backend)
+end
+
+@kernel function solve_lbfgs(nlprob::NonlinearProblem, opt, result, maxiters = 1000)
+    result .= SciMLBase.__solve(nlprob, opt; maxiters = maxiters).u
+end
+
+function SciMLBase.__solve(prob::SciMLBase.OptimizationProblem, opt::LBFGS, args...; maxiters = 1000, kwargs...)
+    f = Base.Fix2(prob.f.f, prob.p)
+
+    function _g(θ, _p = nothing) 
+        return ForwardDiff.gradient(f , θ) 
+    end
+
+    kernel = solve_lbfgs(opt.backend) 
+    # @show cache.u0
+    t0 = time()
+    result = KernelAbstractions.allocate(opt.backend, eltype(prob.u0), size(prob.u0))
+
+    nlprob = NonlinearProblem{false}(_g, prob.u0)
+    nlsol = kernel(nlprob, SimpleLimitedMemoryBroyden(; threshold = opt.m, linesearch = Val(true)), result, maxiters; ndrange = (1,))
+    t1 = time()
+    θ = result
+    # @show nlsol.stats
+    # @show nlsol.resid
+
+    SciMLBase.build_solution(SciMLBase.DefaultOptimizationCache(prob.f, prob.p), opt, θ, prob.f(θ, prob.p))
+end
diff --git a/src/lowerlevel_solve.jl b/src/lowerlevel_solve.jl
@@ -20,7 +20,7 @@ function vectorized_solve!(prob,
         w = w * wdamp
     end
 
-    return gbest
+    return gbest, gpu_particles
 end
 
 function vectorized_solve!(prob,
@@ -43,7 +43,7 @@ function vectorized_solve!(prob,
         w = w * wdamp
     end
 
-    return Array(gbest)[1]
+    return Array(gbest)[1], gpu_particles
 end
 
 function vectorized_solve!(prob,
@@ -66,7 +66,7 @@ function vectorized_solve!(prob,
         ndrange = length(gpu_particles))
 
     best_particle = minimum(gpu_particles)
-    return SPSOGBest(best_particle.best_position, best_particle.best_cost)
+    return SPSOGBest(best_particle.best_position, best_particle.best_cost), gpu_particles
 end
 
 function vectorized_solve!(prob, gbest,
@@ -120,7 +120,7 @@ function vectorized_solve!(prob, gbest,
         end
         w = w * wdamp
     end
-    gbest
+    gbest, particles
 end
 
 function update_particle_states_cpu!(prob, particles, gbest_ref, w, iter, opt;
@@ -155,5 +155,5 @@ function vectorized_solve!(prob,
         update_particle_states_cpu!(prob, particles, sol_ref, w, i, opt)
         w = w * wdamp
     end
-    return sol_ref[]
+    return sol_ref[], particles
 end
diff --git a/src/solve.jl b/src/solve.jl
@@ -1,11 +1,16 @@
-function SciMLBase.__solve(prob::OptimizationProblem, opt::PSOAlogrithm, args...; kwargs...)
+function get_pos(particle)
+    return particle.position
+end
+
+function SciMLBase.__solve(prob::OptimizationProblem, opt::PSOAlgorithm, args...; kwargs...)
+    lb, ub = check_init_bounds(prob)
     lb, ub = check_init_bounds(prob)
     prob = remake(prob; lb = lb, ub = ub)
 
-    gbest = pso_solve(prob, opt, args...; kwargs...)
-
+    gbest, particles = pso_solve(prob, opt)
+    particles_positions = get_pos.(particles)
     SciMLBase.build_solution(SciMLBase.DefaultOptimizationCache(prob.f, prob.p), opt,
-        gbest.position, prob.f(gbest.position, prob.p))
+        gbest.position, prob.f(gbest.position, prob.p), original = particles_positions)
 end
 
 function pso_solve(prob::OptimizationProblem,
@@ -24,29 +29,29 @@ function pso_solve(prob::OptimizationProblem,
     gpu_init_gbest = KernelAbstractions.allocate(backend, typeof(init_gbest), (1,))
     copyto!(gpu_init_gbest, [init_gbest])
 
-    gbest = vectorized_solve!(prob,
+    gbest, particles = vectorized_solve!(prob,
         gpu_init_gbest,
         gpu_particles,
         opt,
         Val(opt.global_update),
         args...;
         kwargs...)
-    gbest
+    gbest, particles
 end
 
 function pso_solve(prob::OptimizationProblem,
         opt::ParallelPSOArray,
         args...;
         kwargs...)
     init_gbest, particles = init_particles(prob, opt, typeof(prob.u0))
-    gbest = vectorized_solve!(prob, init_gbest, particles, opt, args...; kwargs...)
-    gbest
+    gbest, particles = vectorized_solve!(prob, init_gbest, particles, opt, args...; kwargs...)
+    gbest, particles
 end
 
 function pso_solve(prob::OptimizationProblem, opt::SerialPSO, args...; kwargs...)
     init_gbest, particles = init_particles(prob, opt, typeof(prob.u0))
-    gbest = vectorized_solve!(prob, init_gbest, particles, opt; kwargs...)
-    gbest
+    gbest, particles = vectorized_solve!(prob, init_gbest, particles, opt; kwargs...)
+    gbest, particles
 end
 
 function pso_solve(prob::OptimizationProblem,
diff --git a/test/lbfgs.jl b/test/lbfgs.jl
@@ -0,0 +1,44 @@
+using PSOGPU, Optimization, CUDA
+using Zygote, StaticArrays, KernelAbstractions
+using Optimization
+
+function objf(x, p)
+    return 1 - x[1]^2 - x[2]^2
+end
+
+optprob = OptimizationFunction(objf, Optimization.AutoZygote())
+x0 = rand(2)
+x0 = SVector{2}(x0)
+prob = OptimizationProblem(optprob, x0)
+l1 = objf(x0, nothing)
+sol = Optimization.solve(prob,
+    PSOGPU.LBFGS(;backend = CUDABackend()),
+    maxiters = 10)
+
+N = 10
+function rosenbrock(x, p)
+    sum(p[2] * (x[i + 1] - x[i]^2)^2 + (p[1] - x[i])^2 for i in 1:(length(x) - 1))
+end
+x0 = @SArray rand(Float32, N)
+p = @SArray  Float32[1.0, 100.0]
+optf = OptimizationFunction(rosenbrock, Optimization.AutoForwardDiff())
+prob = OptimizationProblem(optf, x0, p)
+l0 = rosenbrock(x0, p)
+
+@time sol = Optimization.solve(prob,
+    PSOGPU.LBFGS(; m = 7, backend = CUDABackend()),
+    maxiters = 20,
+    )
+@show sol.objective
+@time sol = Optimization.solve(prob,
+    PSOGPU.ParallelPSOKernel(100, backend = CUDABackend()),
+    maxiters = 100,
+    )
+@show sol.objective
+
+@time sol = Optimization.solve(prob,
+    PSOGPU.HybridPSOLBFGS(pso = PSOGPU.ParallelPSOKernel(100; backend = CUDABackend()), lbfgs = PSOGPU.LBFGS(; m = 7, backend = CUDABackend())),
+    EnsembleThreads(),
+    maxiters = 30,
+    )
+@show sol.objective