From 84743f68862b29ac20e18de83de67c290c72af81 Mon Sep 17 00:00:00 2001
From: Thomas Wutzler <twutz@bgc-jena.mpg.de>
Date: Fri, 31 Jan 2025 13:43:45 +0100
Subject: [PATCH 1/3] implement HybridPointSolver on cpu

---
 Project.toml                      |   4 +
 dev/doubleMM.jl                   | 124 ++++++++++++++++++++++++++----
 src/AbstractHybridProblem.jl      |   5 +-
 src/DoubleMM/f_doubleMM.jl        |  12 +--
 src/HybridProblem.jl              |  81 +++++++++++++------
 src/HybridSolver.jl               |  64 +++++++++++++++
 src/HybridVariationalInference.jl |   8 ++
 src/gf.jl                         |  15 +++-
 test/test_HybridProblem.jl        |  26 ++++---
 test/test_doubleMM.jl             |   4 +-
 10 files changed, 279 insertions(+), 64 deletions(-)
 create mode 100644 src/HybridSolver.jl

diff --git a/Project.toml b/Project.toml
index 77d02c9..c52d8c9 100644
--- a/Project.toml
+++ b/Project.toml
@@ -9,10 +9,12 @@ BlockDiagonals = "0a1fb500-61f7-11e9-3c65-f5ef3456f9f0"
 CUDA = "052768ef-5323-5732-b1bb-66c8b64840ba"
 ChainRulesCore = "d360d2e6-b24c-11e9-a2a3-2a2ae2dbcce4"
 Combinatorics = "861a8166-3701-5b0c-9a16-15d98fcdc6aa"
+CommonSolve = "38540f10-b2f7-11e9-35d8-d573e4eb0ff2"
 ComponentArrays = "b0b7db55-cfe3-40fc-9ded-d10e2dbeff66"
 GPUArraysCore = "46192b85-c4d5-4398-a991-12ede77f4527"
 LinearAlgebra = "37e2e46d-f89d-539d-b4ee-838fcccc9c8e"
 MLUtils = "f1d291b0-491e-4a28-83b9-f70985020b54"
+Optimization = "7f7a1694-90dd-40f0-9382-eb1efda571ba"
 Random = "9a3f8284-a2c9-5f02-9a11-845980a1fd5c"
 StatsBase = "2913bbd2-ae8a-5f71-8c99-4fb6c76f3a91"
 StatsFuns = "4c63d2b9-4356-54db-8cca-17b64c39e42c"
@@ -34,12 +36,14 @@ BlockDiagonals = "0.1.42"
 CUDA = "5.5.2"
 ChainRulesCore = "1.25"
 Combinatorics = "1.0.2"
+CommonSolve = "0.2.4"
 ComponentArrays = "0.15.19"
 Flux = "v0.15.2, 0.16"
 GPUArraysCore = "0.1, 0.2"
 LinearAlgebra = "1.10.0"
 Lux = "1.4.2"
 MLUtils = "0.4.5"
+Optimization = "3.19.3, 4"
 Random = "1.10.0"
 SimpleChains = "0.4"
 StatsBase = "0.34.4"
diff --git a/dev/doubleMM.jl b/dev/doubleMM.jl
index 74ce579..10f793d 100644
--- a/dev/doubleMM.jl
+++ b/dev/doubleMM.jl
@@ -5,31 +5,123 @@ using StableRNGs
 using Random
 using Statistics
 using ComponentArrays: ComponentArrays as CA
-
+using Optimization
+using OptimizationOptimisers # Adam
+using UnicodePlots
 using SimpleChains
-import Flux 
+using Flux
+using MLUtils
+
+rng = StableRNG(114)
+scenario = NTuple{0, Symbol}()
+#scenario = (:use_Flux,)
+
+#------ setup synthetic data and training data loader
+(; xM, n_site, θP_true, θMs_true, xP, y_global_true, y_true, y_global_o, y_o, y_unc
+) = gen_hybridcase_synthetic(rng, DoubleMM.DoubleMMCase(); scenario);
+get_train_loader = (rng; n_batch, kwargs...) -> MLUtils.DataLoader((xM, xP, y_o, y_unc), batchsize = n_batch)
+σ_o = exp(first(y_unc)/2)
+
+# assign the train_loader, otherwise it eatch time creates another version of synthetic data
+prob0 = update(HybridProblem(DoubleMM.DoubleMMCase(); scenario); get_train_loader)
+
+#------- pointwise hybrid model fit
+#solver = HybridPointSolver(; alg = Adam(0.02), n_batch = 30)
+solver = HybridPointSolver(; alg = Adam(0.01), n_batch = 10)
+#solver = HybridPointSolver(; alg = Adam(), n_batch = 200)
+(; ϕ, resopt) = solve(prob0, solver; scenario,
+    rng, callback = callback_loss(100), maxiters = 1200);
+prob0o = update(prob0; ϕg=ϕ.ϕg, θP=ϕ.θP)
+y_pred_global, y_pred, θMs = gf(prob0o, xM, xP);
+scatterplot(θMs_true[1,:], θMs[1,:])
+scatterplot(θMs_true[2,:], θMs[2,:])
+
+# do a few steps without minibatching, 
+#   by providing the data rather than the DataLoader
+# train_loader0 = get_hybridproblem_train_dataloader(rng, prob0; scenario, n_batch=1000)
+# get_train_loader_data = (args...; kwargs...) -> train_loader0.data
+# prob1 = update(prob0o; get_train_loader = get_train_loader_data)
+prob1 = prob0o
+
+#solver1 = HybridPointSolver(; alg = Adam(0.05), n_batch = n_site)
+solver1 = HybridPointSolver(; alg = Adam(0.01), n_batch = n_site)
+(; ϕ, resopt) = solve(prob1, solver1; scenario, rng, 
+    callback = callback_loss(20), maxiters = 600);
+prob1o = update(prob1; ϕg=ϕ.ϕg, θP=ϕ.θP)
+y_pred_global, y_pred, θMs = gf(prob1o, xM, xP);
+scatterplot(θMs_true[1,:], θMs[1,:])
+scatterplot(θMs_true[2,:], θMs[2,:])
+prob1o.θP
+scatterplot(vec(y_true), vec(y_pred))
+
+() -> begin # with more iterations?
+    prob2 = prob1o
+    (; ϕ, resopt) = solve(prob2, solver1; scenario, rng, 
+        callback = callback_loss(20), maxiters = 600);
+    prob2o = update(prob2; ϕg=ϕ.ϕg, θP=ϕ.θP)
+    y_pred_global, y_pred, θMs = gf(prob2o, xM, xP);
+    prob2o.θP
+end
+
+#----------- fit g to true θMs 
+# and fit gf starting from true parameters
+prob = prob0
+g, ϕg0 = get_hybridproblem_MLapplicator(prob; scenario);
+(; transP, transM) = get_hybridproblem_transforms(prob; scenario)
+
+function loss_g(ϕg, x, g, transM)
+    ζMs = g(x, ϕg) # predict the log of the parameters
+    θMs = reduce(hcat, map(transM, eachcol(ζMs))) # transform each column
+    loss = sum(abs2, θMs .- θMs_true)
+    return loss, θMs
+end
+loss_g(ϕg0, xM, g, transM)
+
+optf = Optimization.OptimizationFunction((ϕg, p) -> loss_g(ϕg, xM, g, transM)[1],
+    Optimization.AutoZygote())
+optprob = Optimization.OptimizationProblem(optf, ϕg0);
+res = Optimization.solve(optprob, Adam(0.015), callback = callback_loss(100), maxiters = 2000);
+
+ϕg_opt1 = res.u;
+l1, θMs = loss_g(ϕg_opt1, xM, g, transM)
+#scatterplot(θMs_true[1,:], θMs[1,:])
+scatterplot(θMs_true[2,:], θMs[2,:]) # able to fit θMs[2,:]
+
+prob3 = update(prob0, ϕg = ϕg_opt1, θP = θP_true)
+solver1 = HybridPointSolver(; alg = Adam(0.01), n_batch = n_site)
+(; ϕ, resopt) = solve(prob3, solver1; scenario, rng, 
+    callback = callback_loss(50), maxiters = 600);
+prob3o = update(prob3; ϕg=ϕ.ϕg, θP=ϕ.θP)
+y_pred_global, y_pred, θMs = gf(prob3o, xM, xP);
+scatterplot(θMs_true[2,:], θMs[2,:])
+prob3o.θP
+scatterplot(vec(y_true), vec(y_pred))
+scatterplot(vec(y_true), vec(y_o))
+scatterplot(vec(y_pred), vec(y_o))
+
+() -> begin # optimized loss is indeed lower than with true parameters
+    int_ϕθP = ComponentArrayInterpreter(CA.ComponentVector(
+        ϕg = 1:length(prob0.ϕg), θP = prob0.θP))
+    loss_gf = get_loss_gf(prob0.g, prob0.transM, prob0.f, Float32[], int_ϕθP)
+    loss_gf(vcat(prob3.ϕg, prob3.θP), xM, xP, y_o, y_unc)[1]
+    loss_gf(vcat(prob3o.ϕg, prob3o.θP), xM, xP, y_o, y_unc)[1]
+    #
+    loss_gf(vcat(prob2o.ϕg, prob2o.θP), xM, xP, y_o, y_unc)[1]
+end
+    
+#----------- Hybrid Variational inference 
+
 using MLUtils
 import Zygote
 
 using CUDA
-using OptimizationOptimisers
 using Bijectors
-using UnicodePlots
 
-const prob = DoubleMM.DoubleMMCase()
-scenario = (:default,)
-rng = StableRNG(111)
-
-par_templates = get_hybridproblem_par_templates(prob; scenario)
 
 #n_covar = get_hybridproblem_n_covar(prob; scenario)
 #, n_batch, n_θM, n_θP) = get_hybridproblem_sizes(prob; scenario)
 
-(; xM, n_site, θP_true, θMs_true, xP, y_global_true, y_true, y_global_o, y_o, y_unc
-) = gen_hybridcase_synthetic(rng, prob; scenario);
-
-n_covar = size(xM,1)
-
+n_covar = size(xM, 1)
 
 #----- fit g to θMs_true
 g, ϕg0 = get_hybridproblem_MLapplicator(prob; scenario);
@@ -92,8 +184,6 @@ FT = get_hybridproblem_float_type(prob; scenario)
     θP_true, θMs_true[:, 1], ϕg_opt1, n_batch; transP, transM);
 ϕ_true = ϕ
 
-
-
 () -> begin
     coef_logσ2_logMs = [-5.769 -3.501; -0.01791 0.007951]
     logσ2_logP = CA.ComponentVector(r0 = -8.997, K2 = -5.893)
@@ -245,7 +335,7 @@ y_pred = predict_gf(rng, g_flux, f, res.u, xM_gpu, xP, interpreters;
 size(y_pred) # n_obs x n_site, n_sample_pred
 
 σ_o_post = dropdims(std(y_pred; dims = 3), dims = 3);
-σ_o = exp.(y_unc[:,1] / 2)
+σ_o = exp.(y_unc[:, 1] / 2)
 
 #describe(σ_o_post)
 hcat(σ_o, fill(mean_σ_o_MC, length(σ_o)),
diff --git a/src/AbstractHybridProblem.jl b/src/AbstractHybridProblem.jl
index f81b5c3..76eef4c 100644
--- a/src/AbstractHybridProblem.jl
+++ b/src/AbstractHybridProblem.jl
@@ -123,7 +123,7 @@ function get_hybridproblem_float_type(prob::AbstractHybridProblem; scenario=())
 end
 
 """
-    get_hybridproblem_train_dataloader([rng,] ::AbstractHybridProblem; scenario)
+    get_hybridproblem_train_dataloader([rng,] ::AbstractHybridProblem; scenario, n_batch)
 
 Return a DataLoader that provides a tuple of
 - `xM`: matrix of covariates, with one column per site
@@ -132,9 +132,8 @@ Return a DataLoader that provides a tuple of
 - `y_unc`: matrix `sizeof(y_o)` of uncertainty information 
 """
 function get_hybridproblem_train_dataloader(rng::AbstractRNG, prob::AbstractHybridProblem; 
-    scenario = ())
+    scenario = (), n_batch = 10)
     (; xM, xP, y_o, y_unc) = gen_hybridcase_synthetic(rng, prob; scenario)
-    n_batch = 10
     xM_gpu = :use_Flux ∈ scenario ? CuArray(xM) : xM
     train_loader = MLUtils.DataLoader((xM_gpu, xP, y_o, y_unc), batchsize = n_batch)
     return(train_loader)
diff --git a/src/DoubleMM/f_doubleMM.jl b/src/DoubleMM/f_doubleMM.jl
index 008eceb..ad44ce0 100644
--- a/src/DoubleMM/f_doubleMM.jl
+++ b/src/DoubleMM/f_doubleMM.jl
@@ -1,11 +1,11 @@
 struct DoubleMMCase <: AbstractHybridProblem end
 
 
-θP = CA.ComponentVector{Float32}(r0 = 0.3, K2 = 2.0)
-θM = CA.ComponentVector{Float32}(r1 = 0.5, K1 = 0.2)
+const θP = CA.ComponentVector{Float32}(r0 = 0.3, K2 = 2.0)
+const θM = CA.ComponentVector{Float32}(r1 = 0.5, K1 = 0.2)
 
-transP = elementwise(exp)
-transM = Stacked(elementwise(identity), elementwise(exp))
+const transP = elementwise(exp)
+const transM = Stacked(elementwise(identity), elementwise(exp))
 
 
 const int_θdoubleMM = ComponentArrayInterpreter(flatten1(CA.ComponentVector(; θP, θM)))
@@ -54,13 +54,13 @@ end
 #     return Float32
 # end
 
-const xP_S1 = Float32[1.0, 1.0, 1.0, 1.0, 0.4, 0.3, 0.1]
+const xP_S1 = Float32[0.5, 0.5, 0.5, 0.5, 0.4, 0.3, 0.1]
 const xP_S2 = Float32[1.0, 3.0, 4.0, 5.0, 5.0, 5.0, 5.0]
 
 function HVI.gen_hybridcase_synthetic(rng::AbstractRNG, prob::DoubleMMCase;
         scenario = ())
     n_covar_pc = 2
-    n_site = 200
+    n_site = 800
     n_covar = 5
     n_θM = length(θM)
     FloatType = get_hybridproblem_float_type(prob; scenario)
diff --git a/src/HybridProblem.jl b/src/HybridProblem.jl
index c1f5b8b..ff03ef6 100644
--- a/src/HybridProblem.jl
+++ b/src/HybridProblem.jl
@@ -1,37 +1,77 @@
-struct HybridProblem <: AbstractHybridProblem 
+struct HybridProblem <: AbstractHybridProblem
     θP
     θM
     f
     g
     ϕg
-    py    
+    py
     transP
     transM
     cor_starts # = (P=(1,),M=(1,))
-    train_loader
+    get_train_loader
     # inner constructor to constrain the types
     function HybridProblem(
-        θP::CA.ComponentVector, θM::CA.ComponentVector, 
-        g::AbstractModelApplicator, ϕg::AbstractVector, 
-        f::Function, 
-        py::Function,
-        transM::Union{Function, Bijectors.Transform}, 
-        transP::Union{Function, Bijectors.Transform}, 
-        train_loader::DataLoader,
-        cor_starts::NamedTuple = (P=(1,), M=(1,)))
-        new(θP, θM, f, g, ϕg, py, transM, transP, cor_starts, train_loader)
+            θP::CA.ComponentVector, θM::CA.ComponentVector,
+            g::AbstractModelApplicator, ϕg::AbstractVector,
+            f::Function,
+            py::Function,
+            transM::Union{Function, Bijectors.Transform},
+            transP::Union{Function, Bijectors.Transform},
+            #train_loader::DataLoader,
+            # return a function that constructs the trainloader based on n_batch
+            get_train_loader::Function,
+            cor_starts::NamedTuple = (P = (1,), M = (1,)))
+        new(θP, θM, f, g, ϕg, py, transM, transP, cor_starts, get_train_loader)
     end
 end
 
-function HybridProblem(θP::CA.ComponentVector, θM::CA.ComponentVector, 
-    # note no ϕg argument and g_chain unconstrained
-    g_chain, f::Function, 
-    args...; rng = Random.default_rng(), kwargs...)
+function HybridProblem(θP::CA.ComponentVector, θM::CA.ComponentVector,
+        # note no ϕg argument and g_chain unconstrained
+        g_chain, f::Function,
+        args...; rng = Random.default_rng(), kwargs...)
     # dispatches on type of g_chain
     g, ϕg = construct_ChainsApplicator(rng, g_chain, eltype(θM))
     HybridProblem(θP, θM, g, ϕg, f, args...; kwargs...)
 end
 
+function HybridProblem(prob::AbstractHybridProblem; scenario = ())
+    (; θP, θM) = get_hybridproblem_par_templates(prob; scenario)
+    g, ϕg = get_hybridproblem_MLapplicator(prob; scenario)
+    f = get_hybridproblem_PBmodel(prob; scenario)
+    py = get_hybridproblem_neg_logden_obs(prob; scenario)
+    (; transP, transM) = get_hybridproblem_transforms(prob; scenario)
+    get_train_loader = let prob = prob, scenario = scenario
+        function inner_get_train_loader(rng::AbstractRNG; kwargs...)
+            get_hybridproblem_train_dataloader(rng::AbstractRNG, prob; scenario, kwargs...)
+        end
+    end
+    cor_starts = get_hybridproblem_cor_starts(prob; scenario)
+    HybridProblem(θP, θM, g, ϕg, f, py, transP, transM, get_train_loader, cor_starts)
+end
+
+function update(prob::HybridProblem;
+        θP::CA.ComponentVector = prob.θP,
+        θM::CA.ComponentVector = prob.θM,
+        g::AbstractModelApplicator = prob.g, ϕg::AbstractVector = prob.ϕg,
+        f::Function = prob.f,
+        py::Function = prob.py,
+        transM::Union{Function, Bijectors.Transform} = prob.transM,
+        transP::Union{Function, Bijectors.Transform} = prob.transP,
+        get_train_loader::Function = prob.get_train_loader,
+        cor_starts::NamedTuple = prob.cor_starts)
+    # prob.θP = θP
+    # prob.θM = θM
+    # prob.f = f
+    # prob.g = g
+    # prob.ϕg = ϕg
+    # prob.py = py
+    # prob.transM = transM
+    # prob.transP = transP
+    # prob.cor_starts = cor_starts
+    # prob.get_train_loader = get_train_loader
+    HybridProblem(θP, θM, g, ϕg, f, py, transP, transM, get_train_loader, cor_starts)
+end
+
 function get_hybridproblem_par_templates(prob::HybridProblem; scenario::NTuple = ())
     (; θP = prob.θP, θM = prob.θM)
 end
@@ -54,12 +94,12 @@ function get_hybridproblem_PBmodel(prob::HybridProblem; scenario::NTuple = ())
     prob.f
 end
 
-function get_hybridproblem_MLapplicator(prob::HybridProblem; scenario::NTuple = ());
+function get_hybridproblem_MLapplicator(prob::HybridProblem; scenario::NTuple = ())
     prob.g, prob.ϕg
 end
 
-function get_hybridproblem_train_dataloader(rng::AbstractRNG, prob::HybridProblem; scenario = ())
-    return(prob.train_loader)
+function get_hybridproblem_train_dataloader(rng::AbstractRNG, prob::HybridProblem; kwargs...)
+    return prob.get_train_loader(rng; kwargs...)
 end
 
 function get_hybridproblem_cor_starts(prob::HybridProblem; scenario = ())
@@ -69,6 +109,3 @@ end
 # function get_hybridproblem_float_type(prob::HybridProblem; scenario::NTuple = ()) 
 #     eltype(prob.θM)
 # end
-
-
-
diff --git a/src/HybridSolver.jl b/src/HybridSolver.jl
new file mode 100644
index 0000000..5f5f8df
--- /dev/null
+++ b/src/HybridSolver.jl
@@ -0,0 +1,64 @@
+abstract type AbstractHybridSolver end
+
+struct HybridPointSolver{A} <: AbstractHybridSolver
+    alg::A
+    n_batch::Int
+end
+
+HybridPointSolver(; alg, n_batch = 10) = HybridPointSolver(alg,n_batch)
+#HybridPointSolver(; alg = Adam(0.02), n_batch = 10) = HybridPointSolver(alg,n_batch)
+
+
+function CommonSolve.solve(prob::AbstractHybridProblem, solver::HybridPointSolver; 
+    scenario, rng = Random.default_rng(), kwargs...)
+    par_templates = get_hybridproblem_par_templates(prob; scenario)
+    g, ϕg0 = get_hybridproblem_MLapplicator(prob; scenario);
+    FT = get_hybridproblem_float_type(prob; scenario)
+    (; transP, transM) = get_hybridproblem_transforms(prob; scenario)
+    int_ϕθP = ComponentArrayInterpreter(CA.ComponentVector(
+        ϕg = 1:length(ϕg0), θP = par_templates.θP))
+    #p0_cpu = vcat(ϕg0, par_templates.θP .* FT(0.9))  # slightly disturb θP_true
+    p0_cpu = vcat(ϕg0, par_templates.θP)  
+    p0 = (:use_Flux ∈ scenario) ? CuArray(p0_cpu) : p0_cpu
+    train_loader = get_hybridproblem_train_dataloader(rng, prob; scenario, solver.n_batch)    
+    f = get_hybridproblem_PBmodel(prob; scenario)
+    y_global_o = FT[] # TODO
+    loss_gf = get_loss_gf(g, transM, f, y_global_o, int_ϕθP)
+    #l1 = loss_gf(p0, train_loader...)[1]
+    # Zygote.gradient(p0 -> loss_gf(p0, data1...)[1], p0)
+    optf = Optimization.OptimizationFunction((ϕ, data) -> loss_gf(ϕ, data...)[1],
+        Optimization.AutoZygote())
+    optprob = OptimizationProblem(optf, p0, train_loader)
+    res = Optimization.solve(optprob, solver.alg; kwargs...)
+    (;ϕ = int_ϕθP(res.u), resopt = res)
+end
+
+
+
+struct HybridPosteriorSolver{A} <: AbstractHybridSolver
+    alg::A
+    n_batch::Int
+    n_MC::Int
+
+end
+HybridPosteriorSolver(; alg, n_batch = 10, n_MC = 3) = HybridPointSolver(alg, n_batch, n_MC)
+
+function CommonSolve.solve(prob::AbstractHybridProblem, solver::HybridPosteriorSolver; 
+    scenario, rng = Random.default_rng(), kwargs...)
+    par_templates = get_hybridproblem_par_templates(prob; scenario)
+    g, ϕg0 = get_hybridproblem_MLapplicator(prob; scenario);
+    (; transP, transM) = get_hybridproblem_transforms(prob; scenario)
+    (; ϕ, transPMs_batch, interpreters, get_transPMs, get_ca_int_PMs) = init_hybrid_params(
+        θP_true, θMs_true[:, 1], ϕg0, solver.n_batch; transP, transM);
+    use_gpu = (:use_Flux ∈ scenario)
+    # ϕd = use_gpu ? CuArray(ϕ) : ϕ
+    # train_loader = get_hybridproblem_train_dataloader(rng, prob; scenario, solver.n_batch)    
+    # f = get_hybridproblem_PBmodel(prob; scenario)
+    # y_global_o = Float32[] # TODO
+    # loss_gf = get_loss_gf(g, transM, f, y_global_o, int_ϕθP)
+    # optf = Optimization.OptimizationFunction((ϕ, data) -> loss_gf(ϕ, data...)[1],
+    #     Optimization.AutoZygote())
+    # optprob = OptimizationProblem(optf, p0, train_loader)
+    # res = Optimization.solve(optprob, solver.alg; kwargs...)
+end
+
diff --git a/src/HybridVariationalInference.jl b/src/HybridVariationalInference.jl
index f81c6ef..6965256 100644
--- a/src/HybridVariationalInference.jl
+++ b/src/HybridVariationalInference.jl
@@ -12,6 +12,9 @@ using Bijectors
 using Zygote  # Zygote.@ignore CUDA.randn
 using BlockDiagonals
 using MLUtils  # dataloader
+using CommonSolve
+#using OptimizationOptimisers # default alg=Adam(0.02)
+using Optimization
 
 export ComponentArrayInterpreter, flatten1, get_concrete
 include("ComponentArrayInterpreter.jl")
@@ -28,6 +31,7 @@ export AbstractHybridProblem, get_hybridproblem_MLapplicator, get_hybridproblem_
        get_hybridproblem_par_templates, get_hybridproblem_transforms, get_hybridproblem_train_dataloader,
        get_hybridproblem_neg_logden_obs, 
        get_hybridproblem_n_covar, 
+       update,
        gen_cov_pred
 include("AbstractHybridProblem.jl")
 
@@ -55,6 +59,10 @@ include("elbo.jl")
 export init_hybrid_params
 include("init_hybrid_params.jl")
 
+export AbstractHybridSolver, HybridPointSolver, HybridPosteriorSolver
+include("HybridSolver.jl")
+
+
 export DoubleMM
 include("DoubleMM/DoubleMM.jl")
 
diff --git a/src/gf.jl b/src/gf.jl
index e23f10d..98271be 100644
--- a/src/gf.jl
+++ b/src/gf.jl
@@ -19,16 +19,24 @@ end
 """
 composition f ∘ transM ∘ g: mechanistic model after machine learning parameter prediction
 """
-function gf(g, transM, f, xM, xP, ϕg, θP)
+function gf(g, transM, f, xM, xP, ϕg, θP; gpu_handler = default_GPU_DataHandler)
     # @show first(xM,5)
     # @show first(ϕg,5)
     ζMs = g(xM, ϕg) # predict the log of the parameters
-    # @show first(ζMs,5)
-    θMs = reduce(hcat, map(transM, eachcol(ζMs))) # transform each column
+    ζMs_cpu = gpu_handler(ζMs)
+    θMs = reduce(hcat, map(transM, eachcol(ζMs_cpu))) # transform each column
     y_pred_global, y_pred = f(θP, θMs, xP)
     return y_pred_global, y_pred, θMs
 end
 
+function gf(prob::AbstractHybridProblem, xM, xP, args...; scenario = (), kwargs...)
+    g, ϕg = get_hybridproblem_MLapplicator(prob; scenario)
+    f = get_hybridproblem_PBmodel(prob; scenario)
+    (; θP, θM) = get_hybridproblem_par_templates(prob; scenario)
+    (; transP, transM) = get_hybridproblem_transforms(prob; scenario)
+    gf(g, transM, f, xM, xP, ϕg, θP; kwargs...)
+end
+
 """
 Create a loss function for parameter vector p, given 
 - g(x, ϕ): machine learning model 
@@ -49,6 +57,7 @@ function get_loss_gf(g, transM, f, y_o_global, int_ϕθP::AbstractComponentArray
     end
 end
 
+
 () -> begin
     loss_gf(p, xM, y_o)
     Zygote.gradient(x -> loss_gf(x, xM, y_o)[1], p)
diff --git a/test/test_HybridProblem.jl b/test/test_HybridProblem.jl
index 380c65a..94d7c42 100644
--- a/test/test_HybridProblem.jl
+++ b/test/test_HybridProblem.jl
@@ -51,9 +51,13 @@ construct_problem = () -> begin
     (; xM, n_site, θP_true, θMs_true, xP, y_global_true, y_true, y_global_o, y_o, y_unc
     ) = gen_hybridcase_synthetic(rng, DoubleMM.DoubleMMCase())
     py = neg_logden_indep_normal
-    train_loader = MLUtils.DataLoader((xM, xP, y_o, y_unc), batchsize=n_batch)
+    get_train_loader = let xM = xM, xP = xP, y_o = y_o, y_unc = y_unc
+        function inner_get_train_loader(rng; n_batch, kwargs...)
+            MLUtils.DataLoader((xM, xP, y_o, y_unc), batchsize=n_batch)
+        end
+    end
     HybridProblem(θP, θM, g_chain, f_doubleMM_with_global, py,
-        transM, transP, train_loader, cov_starts)
+        transM, transP, get_train_loader, cov_starts)
 end
 prob = construct_problem();
 scenario = (:default,)
@@ -62,11 +66,11 @@ scenario = (:default,)
     #----------- fit g and θP to y_o
     rng = StableRNG(111)
     g, ϕg0 = get_hybridproblem_MLapplicator(prob; scenario)
-    train_loader = get_hybridproblem_train_dataloader(rng, prob; scenario)
+    train_loader = get_hybridproblem_train_dataloader(rng, prob; n_batch = 10, scenario)
     (xM, xP, y_o, y_unc) = first(train_loader)
     f = get_hybridproblem_PBmodel(prob; scenario)
     par_templates = get_hybridproblem_par_templates(prob; scenario)
-    (;transM, transP) = get_hybridproblem_transforms(prob; scenario)
+    (; transM, transP) = get_hybridproblem_transforms(prob; scenario)
 
     int_ϕθP = ComponentArrayInterpreter(CA.ComponentVector(
         ϕg=1:length(ϕg0), θP=par_templates.θP))
@@ -100,7 +104,7 @@ import Flux
 @testset "neg_elbo_transnorm_gf cpu" begin
     rng = StableRNG(111)
     g, ϕg0 = get_hybridproblem_MLapplicator(prob)
-    train_loader = get_hybridproblem_train_dataloader(rng, prob)
+    train_loader = get_hybridproblem_train_dataloader(rng, prob; n_batch = 10)
     (xM, xP, y_o, y_unc) = first(train_loader)
     n_batch = size(y_o, 2)
     f = get_hybridproblem_PBmodel(prob)
@@ -114,14 +118,14 @@ import Flux
 
     py = get_hybridproblem_neg_logden_obs(prob)
 
-    cost = neg_elbo_transnorm_gf(rng, ϕ_ini, g, transPMs_batch, f, py, 
+    cost = neg_elbo_transnorm_gf(rng, ϕ_ini, g, transPMs_batch, f, py,
         xM, xP, y_o, y_unc, map(get_concrete, interpreters);
         n_MC=8)
     @test cost isa Float64
     gr = Zygote.gradient(
-        ϕ -> neg_elbo_transnorm_gf(rng, ϕ, g, transPMs_batch, f, py, 
-        xM, xP, y_o, y_unc, map(get_concrete, interpreters);
-        n_MC=8),
+        ϕ -> neg_elbo_transnorm_gf(rng, ϕ, g, transPMs_batch, f, py,
+            xM, xP, y_o, y_unc, map(get_concrete, interpreters);
+            n_MC=8),
         CA.getdata(ϕ_ini))
     @test gr[1] isa Vector
 
@@ -148,8 +152,8 @@ import Flux
             @test cost isa Float64
             gr = Zygote.gradient(
                 ϕ -> neg_elbo_transnorm_gf(rng, ϕ, g, transPMs_batch, f, py,
-                xMg, xP, y_o, y_unc, map(get_concrete, interpreters);
-                n_MC=8),
+                    xMg, xP, y_o, y_unc, map(get_concrete, interpreters);
+                    n_MC=8),
                 ϕ)
             @test gr[1] isa CuVector
             @test eltype(gr[1]) == get_hybridproblem_float_type(prob)
diff --git a/test/test_doubleMM.jl b/test/test_doubleMM.jl
index 89cdce3..5b6cc9d 100644
--- a/test/test_doubleMM.jl
+++ b/test/test_doubleMM.jl
@@ -99,8 +99,8 @@ end
     θMs_pred = CA.ComponentArray(θMs_pred, CA.getaxes(θMs_true))
     #TODO @test isapprox(par_templates.θP, int_ϕθP(res.u).θP, rtol = 0.15)
     @test cor(vec(θMs_true), vec(θMs_pred)) > 0.9
-    @test cor(θMs_true[:,1], θMs_pred[:,1]) > 0.9
-    @test cor(θMs_true[:,2], θMs_pred[:,2]) > 0.9
+    @test cor(θMs_true[:,1], θMs_pred[:,1]) > 0.8
+    @test cor(θMs_true[:,2], θMs_pred[:,2]) > 0.8
 
     () -> begin
         scatterplot(vec(θMs_true), vec(θMs_pred))

From 6da5b8162998afe7dfc84afd4447c2b70504a595 Mon Sep 17 00:00:00 2001
From: Thomas Wutzler <twutz@bgc-jena.mpg.de>
Date: Fri, 31 Jan 2025 20:19:57 +0100
Subject: [PATCH 2/3] implement HybridPointSolver on gpu

---
 dev/doubleMM.jl                          | 117 ++++++++++++-----------
 ext/HybridVariationalInferenceFluxExt.jl |   5 +
 src/DoubleMM/f_doubleMM.jl               |  11 ++-
 src/HybridSolver.jl                      |   3 +-
 src/HybridVariationalInference.jl        |   5 +-
 src/gf.jl                                |  13 ++-
 src/util_ca.jl                           |   9 ++
 test/runtests.jl                         |   1 +
 test/test_ComponentArrayInterpreter.jl   |   4 +-
 test/test_Flux.jl                        |   8 ++
 test/test_HybridProblem.jl               |   2 +-
 test/test_doubleMM.jl                    |   7 +-
 12 files changed, 115 insertions(+), 70 deletions(-)
 create mode 100644 src/util_ca.jl

diff --git a/dev/doubleMM.jl b/dev/doubleMM.jl
index 10f793d..ec71f22 100644
--- a/dev/doubleMM.jl
+++ b/dev/doubleMM.jl
@@ -11,19 +11,24 @@ using UnicodePlots
 using SimpleChains
 using Flux
 using MLUtils
+using CUDA
 
 rng = StableRNG(114)
 scenario = NTuple{0, Symbol}()
-#scenario = (:use_Flux,)
+scenario = (:use_Flux,)
 
 #------ setup synthetic data and training data loader
 (; xM, n_site, θP_true, θMs_true, xP, y_global_true, y_true, y_global_o, y_o, y_unc
 ) = gen_hybridcase_synthetic(rng, DoubleMM.DoubleMMCase(); scenario);
+xM_cpu = xM
+if :use_Flux ∈ scenario
+    xM = CuArray(xM_cpu)
+end
 get_train_loader = (rng; n_batch, kwargs...) -> MLUtils.DataLoader((xM, xP, y_o, y_unc), batchsize = n_batch)
 σ_o = exp(first(y_unc)/2)
 
 # assign the train_loader, otherwise it eatch time creates another version of synthetic data
-prob0 = update(HybridProblem(DoubleMM.DoubleMMCase(); scenario); get_train_loader)
+prob0 = HVI.update(HybridProblem(DoubleMM.DoubleMMCase(); scenario); get_train_loader)
 
 #------- pointwise hybrid model fit
 #solver = HybridPointSolver(; alg = Adam(0.02), n_batch = 30)
@@ -31,29 +36,26 @@ solver = HybridPointSolver(; alg = Adam(0.01), n_batch = 10)
 #solver = HybridPointSolver(; alg = Adam(), n_batch = 200)
 (; ϕ, resopt) = solve(prob0, solver; scenario,
     rng, callback = callback_loss(100), maxiters = 1200);
-prob0o = update(prob0; ϕg=ϕ.ϕg, θP=ϕ.θP)
-y_pred_global, y_pred, θMs = gf(prob0o, xM, xP);
+# update the problem with optimized parameters
+prob0o = HVI.update(prob0; ϕg=cpu_ca(ϕ).ϕg, θP=cpu_ca(ϕ).θP)
+y_pred_global, y_pred, θMs = gf(prob0o, xM, xP; scenario);
 scatterplot(θMs_true[1,:], θMs[1,:])
 scatterplot(θMs_true[2,:], θMs[2,:])
 
 # do a few steps without minibatching, 
 #   by providing the data rather than the DataLoader
-# train_loader0 = get_hybridproblem_train_dataloader(rng, prob0; scenario, n_batch=1000)
-# get_train_loader_data = (args...; kwargs...) -> train_loader0.data
-# prob1 = update(prob0o; get_train_loader = get_train_loader_data)
-prob1 = prob0o
-
-#solver1 = HybridPointSolver(; alg = Adam(0.05), n_batch = n_site)
 solver1 = HybridPointSolver(; alg = Adam(0.01), n_batch = n_site)
-(; ϕ, resopt) = solve(prob1, solver1; scenario, rng, 
+(; ϕ, resopt) = solve(prob0o, solver1; scenario, rng, 
     callback = callback_loss(20), maxiters = 600);
-prob1o = update(prob1; ϕg=ϕ.ϕg, θP=ϕ.θP)
-y_pred_global, y_pred, θMs = gf(prob1o, xM, xP);
+prob1o = HVI.update(prob0o; ϕg=cpu_ca(ϕ).ϕg, θP=cpu_ca(ϕ).θP);
+y_pred_global, y_pred, θMs = gf(prob1o, xM, xP; scenario);
 scatterplot(θMs_true[1,:], θMs[1,:])
 scatterplot(θMs_true[2,:], θMs[2,:])
 prob1o.θP
 scatterplot(vec(y_true), vec(y_pred))
 
+# still overestimating θMs
+
 () -> begin # with more iterations?
     prob2 = prob1o
     (; ϕ, resopt) = solve(prob2, solver1; scenario, rng, 
@@ -63,50 +65,55 @@ scatterplot(vec(y_true), vec(y_pred))
     prob2o.θP
 end
 
-#----------- fit g to true θMs 
-# and fit gf starting from true parameters
-prob = prob0
-g, ϕg0 = get_hybridproblem_MLapplicator(prob; scenario);
-(; transP, transM) = get_hybridproblem_transforms(prob; scenario)
-
-function loss_g(ϕg, x, g, transM)
-    ζMs = g(x, ϕg) # predict the log of the parameters
-    θMs = reduce(hcat, map(transM, eachcol(ζMs))) # transform each column
-    loss = sum(abs2, θMs .- θMs_true)
-    return loss, θMs
-end
-loss_g(ϕg0, xM, g, transM)
 
-optf = Optimization.OptimizationFunction((ϕg, p) -> loss_g(ϕg, xM, g, transM)[1],
-    Optimization.AutoZygote())
-optprob = Optimization.OptimizationProblem(optf, ϕg0);
-res = Optimization.solve(optprob, Adam(0.015), callback = callback_loss(100), maxiters = 2000);
-
-ϕg_opt1 = res.u;
-l1, θMs = loss_g(ϕg_opt1, xM, g, transM)
-#scatterplot(θMs_true[1,:], θMs[1,:])
-scatterplot(θMs_true[2,:], θMs[2,:]) # able to fit θMs[2,:]
-
-prob3 = update(prob0, ϕg = ϕg_opt1, θP = θP_true)
-solver1 = HybridPointSolver(; alg = Adam(0.01), n_batch = n_site)
-(; ϕ, resopt) = solve(prob3, solver1; scenario, rng, 
-    callback = callback_loss(50), maxiters = 600);
-prob3o = update(prob3; ϕg=ϕ.ϕg, θP=ϕ.θP)
-y_pred_global, y_pred, θMs = gf(prob3o, xM, xP);
-scatterplot(θMs_true[2,:], θMs[2,:])
-prob3o.θP
-scatterplot(vec(y_true), vec(y_pred))
-scatterplot(vec(y_true), vec(y_o))
-scatterplot(vec(y_pred), vec(y_o))
+#----------- fit g to true θMs 
+() -> begin
+    # and fit gf starting from true parameters
+    prob = prob0
+    g, ϕg0_cpu = get_hybridproblem_MLapplicator(prob; scenario);
+    ϕg0 = (:use_Flux ∈ scenario) ? CuArray(ϕg0_cpu) : ϕg0_cpu
+    (; transP, transM) = get_hybridproblem_transforms(prob; scenario)
+
+    function loss_g(ϕg, x, g, transM; gpu_handler = HVI.default_GPU_DataHandler)
+        ζMs = g(x, ϕg) # predict the log of the parameters
+        ζMs_cpu = gpu_handler(ζMs)
+        θMs = reduce(hcat, map(transM, eachcol(ζMs_cpu))) # transform each column
+        loss = sum(abs2, θMs .- θMs_true)
+        return loss, θMs
+    end
+    loss_g(ϕg0, xM, g, transM)
+
+    optf = Optimization.OptimizationFunction((ϕg, p) -> loss_g(ϕg, xM, g, transM)[1],
+        Optimization.AutoZygote())
+    optprob = Optimization.OptimizationProblem(optf, ϕg0);
+    res = Optimization.solve(optprob, Adam(0.015), callback = callback_loss(100), maxiters = 2000);
+
+    ϕg_opt1 = res.u;
+    l1, θMs = loss_g(ϕg_opt1, xM, g, transM)
+    #scatterplot(θMs_true[1,:], θMs[1,:])
+    scatterplot(θMs_true[2,:], θMs[2,:]) # able to fit θMs[2,:]
+
+    prob3 = HVI.update(prob0, ϕg = Array(ϕg_opt1), θP = θP_true)
+    solver1 = HybridPointSolver(; alg = Adam(0.01), n_batch = n_site)
+    (; ϕ, resopt) = solve(prob3, solver1; scenario, rng, 
+        callback = callback_loss(50), maxiters = 600);
+    prob3o = HVI.update(prob3; ϕg=cpu_ca(ϕ).ϕg, θP=cpu_ca(ϕ).θP)
+    y_pred_global, y_pred, θMs = gf(prob3o, xM, xP; scenario);
+    scatterplot(θMs_true[2,:], θMs[2,:])
+    prob3o.θP
+    scatterplot(vec(y_true), vec(y_pred))
+    scatterplot(vec(y_true), vec(y_o))
+    scatterplot(vec(y_pred), vec(y_o))
 
-() -> begin # optimized loss is indeed lower than with true parameters
-    int_ϕθP = ComponentArrayInterpreter(CA.ComponentVector(
-        ϕg = 1:length(prob0.ϕg), θP = prob0.θP))
-    loss_gf = get_loss_gf(prob0.g, prob0.transM, prob0.f, Float32[], int_ϕθP)
-    loss_gf(vcat(prob3.ϕg, prob3.θP), xM, xP, y_o, y_unc)[1]
-    loss_gf(vcat(prob3o.ϕg, prob3o.θP), xM, xP, y_o, y_unc)[1]
-    #
-    loss_gf(vcat(prob2o.ϕg, prob2o.θP), xM, xP, y_o, y_unc)[1]
+    () -> begin # optimized loss is indeed lower than with true parameters
+        int_ϕθP = ComponentArrayInterpreter(CA.ComponentVector(
+            ϕg = 1:length(prob0.ϕg), θP = prob0.θP))
+        loss_gf = get_loss_gf(prob0.g, prob0.transM, prob0.f, Float32[], int_ϕθP)
+        loss_gf(vcat(prob3.ϕg, prob3.θP), xM, xP, y_o, y_unc)[1]
+        loss_gf(vcat(prob3o.ϕg, prob3o.θP), xM, xP, y_o, y_unc)[1]
+        #
+        loss_gf(vcat(prob2o.ϕg, prob2o.θP), xM, xP, y_o, y_unc)[1]
+    end
 end
     
 #----------- Hybrid Variational inference 
diff --git a/ext/HybridVariationalInferenceFluxExt.jl b/ext/HybridVariationalInferenceFluxExt.jl
index 0c92933..dd960f2 100644
--- a/ext/HybridVariationalInferenceFluxExt.jl
+++ b/ext/HybridVariationalInferenceFluxExt.jl
@@ -55,6 +55,11 @@ function HVI.construct_3layer_MLApplicator(
     construct_ChainsApplicator(rng, g_chain, float_type)
 end
 
+function HVI.cpu_ca(ca::CA.ComponentArray)
+    CA.ComponentArray(cpu(CA.getdata(ca)), CA.getaxes(ca))
+end
+
+
 
 
 end # module
diff --git a/src/DoubleMM/f_doubleMM.jl b/src/DoubleMM/f_doubleMM.jl
index ad44ce0..3d6a9e1 100644
--- a/src/DoubleMM/f_doubleMM.jl
+++ b/src/DoubleMM/f_doubleMM.jl
@@ -22,6 +22,12 @@ function HVI.get_hybridproblem_par_templates(::DoubleMMCase; scenario::NTuple =
     (; θP, θM)
 end
 
+function HVI.get_hybridproblem_MLapplicator(
+    rng::AbstractRNG, prob::HVI.DoubleMM.DoubleMMCase; scenario = ())
+    ml_engine = select_ml_engine(; scenario)
+    construct_3layer_MLApplicator(rng, prob, ml_engine; scenario)
+end
+
 function HVI.get_hybridproblem_transforms(::DoubleMMCase; scenario::NTuple = ())
     (; transP, transM)
 end
@@ -91,11 +97,6 @@ function HVI.gen_hybridcase_synthetic(rng::AbstractRNG, prob::DoubleMMCase;
     )
 end
 
-function HVI.get_hybridproblem_MLapplicator(
-    rng::AbstractRNG, prob::HVI.DoubleMM.DoubleMMCase; scenario = ())
-    ml_engine = select_ml_engine(; scenario)
-    construct_3layer_MLApplicator(rng, prob, ml_engine; scenario)
-end
 
 
 
diff --git a/src/HybridSolver.jl b/src/HybridSolver.jl
index 5f5f8df..220aada 100644
--- a/src/HybridSolver.jl
+++ b/src/HybridSolver.jl
@@ -24,7 +24,8 @@ function CommonSolve.solve(prob::AbstractHybridProblem, solver::HybridPointSolve
     f = get_hybridproblem_PBmodel(prob; scenario)
     y_global_o = FT[] # TODO
     loss_gf = get_loss_gf(g, transM, f, y_global_o, int_ϕθP)
-    #l1 = loss_gf(p0, train_loader...)[1]
+    # data1 = first(train_loader)
+    # l1 = loss_gf(p0, first(train_loader)...)[1]
     # Zygote.gradient(p0 -> loss_gf(p0, data1...)[1], p0)
     optf = Optimization.OptimizationFunction((ϕ, data) -> loss_gf(ϕ, data...)[1],
         Optimization.AutoZygote())
diff --git a/src/HybridVariationalInference.jl b/src/HybridVariationalInference.jl
index 6965256..a4999a6 100644
--- a/src/HybridVariationalInference.jl
+++ b/src/HybridVariationalInference.jl
@@ -31,7 +31,7 @@ export AbstractHybridProblem, get_hybridproblem_MLapplicator, get_hybridproblem_
        get_hybridproblem_par_templates, get_hybridproblem_transforms, get_hybridproblem_train_dataloader,
        get_hybridproblem_neg_logden_obs, 
        get_hybridproblem_n_covar, 
-       update,
+       #update,
        gen_cov_pred
 include("AbstractHybridProblem.jl")
 
@@ -47,6 +47,9 @@ include("gencovar.jl")
 export callback_loss
 include("util_opt.jl")
 
+export cpu_ca
+include("util_ca.jl")
+
 export neg_logden_indep_normal, entropy_MvNormal
 include("logden_normal.jl")
 
diff --git a/src/gf.jl b/src/gf.jl
index 98271be..882c4af 100644
--- a/src/gf.jl
+++ b/src/gf.jl
@@ -24,8 +24,13 @@ function gf(g, transM, f, xM, xP, ϕg, θP; gpu_handler = default_GPU_DataHandle
     # @show first(ϕg,5)
     ζMs = g(xM, ϕg) # predict the log of the parameters
     ζMs_cpu = gpu_handler(ζMs)
+    if θP isa SubArray && !(gpu_handler isa NullGPUDataHandler) 
+        # otherwise Zyote fails on gpu_handler
+        θP = copy(θP)
+    end
+    θP_cpu = gpu_handler(CA.getdata(θP))
     θMs = reduce(hcat, map(transM, eachcol(ζMs_cpu))) # transform each column
-    y_pred_global, y_pred = f(θP, θMs, xP)
+    y_pred_global, y_pred = f(θP_cpu, θMs, xP)
     return y_pred_global, y_pred, θMs
 end
 
@@ -34,7 +39,8 @@ function gf(prob::AbstractHybridProblem, xM, xP, args...; scenario = (), kwargs.
     f = get_hybridproblem_PBmodel(prob; scenario)
     (; θP, θM) = get_hybridproblem_par_templates(prob; scenario)
     (; transP, transM) = get_hybridproblem_transforms(prob; scenario)
-    gf(g, transM, f, xM, xP, ϕg, θP; kwargs...)
+    ϕg_dev, θP_dev = (:use_Flux ∈ scenario) ? (CuArray(ϕg), CuArray(CA.getdata(θP))) : (ϕg, CA.getdata(θP))
+    gf(g, transM, f, xM, xP, ϕg_dev, θP_dev; kwargs...)
 end
 
 """
@@ -50,7 +56,8 @@ function get_loss_gf(g, transM, f, y_o_global, int_ϕθP::AbstractComponentArray
         function loss_gf(p, xM, xP, y_o, y_unc)
             σ = exp.(y_unc ./ 2)
             pc = int_ϕθP(p)
-            y_pred_global, y_pred, θMs = gf(g, transM, f, xM, xP, pc.ϕg, pc.θP)
+            y_pred_global, y_pred, θMs = gf(
+                g, transM, f, xM, xP, CA.getdata(pc.ϕg), CA.getdata(pc.θP))
             loss = sum(abs2, (y_pred .- y_o) ./ σ) + sum(abs2, y_pred_global .- y_o_global)
             return loss, y_pred_global, y_pred, θMs
         end
diff --git a/src/util_ca.jl b/src/util_ca.jl
new file mode 100644
index 0000000..d7cc80a
--- /dev/null
+++ b/src/util_ca.jl
@@ -0,0 +1,9 @@
+"""
+    cpu_ca(ca::CA.ComponentArray)
+
+Move ComponentArray form gpu to cpu.    
+"""
+function cpu_ca end
+# define in FluxExt
+
+
diff --git a/test/runtests.jl b/test/runtests.jl
index 7599ade..4d716e1 100644
--- a/test/runtests.jl
+++ b/test/runtests.jl
@@ -3,6 +3,7 @@ const GROUP = get(ENV, "GROUP", "All") # defined in in CI.yml
 
 @time begin
     if GROUP == "All" || GROUP == "Basic"
+        @time @safetestset "test_HybridProblem" include("test_HybridProblem.jl")
         #@safetestset "test" include("test/test_ComponentArrayInterpreter.jl")
         @time @safetestset "test_ComponentArrayInterpreter" include("test_ComponentArrayInterpreter.jl")
         #@safetestset "test" include("test/test_gencovar.jl")
diff --git a/test/test_ComponentArrayInterpreter.jl b/test/test_ComponentArrayInterpreter.jl
index 0e51aaa..f392dae 100644
--- a/test/test_ComponentArrayInterpreter.jl
+++ b/test/test_ComponentArrayInterpreter.jl
@@ -7,13 +7,15 @@ using ComponentArrays: ComponentArrays as CA
     component_counts = comp_cnts = (; P=2, M=3, Unc=5)
     m = ComponentArrayInterpreter(; comp_cnts...)
     testm = (m) -> begin
-        @test CM._get_ComponentArrayInterpreter_axes(m) == (CA.Axis(P=1:2, M=3:5, Unc=6:10),)
+        #type of axes may differ
+        #@test CM._get_ComponentArrayInterpreter_axes(m) == (CA.Axis(P=1:2, M=3:5, Unc=6:10),)
         @test length(m) == 10
         v = 1:length(m)
         cv = m(v)
         @test cv.Unc == 6:10
     end
     testm(m)
+    m = get_concrete(m)
     testm(get_concrete(m))
     Base.isconcretetype(typeof(m))
 end;
diff --git a/test/test_Flux.jl b/test/test_Flux.jl
index a9378d5..2e9ec66 100644
--- a/test/test_Flux.jl
+++ b/test/test_Flux.jl
@@ -1,6 +1,7 @@
 using Test
 using StatsFuns: logistic
 using CUDA, GPUArraysCore
+using ComponentArrays: ComponentArrays as CA
 
 using HybridVariationalInference
 # @testset "get_default_GPUHandler before loading Flux" begin
@@ -53,3 +54,10 @@ end;
     @test size(y) == (n_out, n_site)
 end;
 
+@testset "cpu_ca" begin
+    c1 = CA.ComponentVector(a=(a1=1,a2=2:3),b=3:4)
+    c1_gpu = gpu(c1)
+    #cpu(c1_gpu) # fails
+    @test cpu_ca(c1_gpu) == c1
+end;
+
diff --git a/test/test_HybridProblem.jl b/test/test_HybridProblem.jl
index 94d7c42..cef1bee 100644
--- a/test/test_HybridProblem.jl
+++ b/test/test_HybridProblem.jl
@@ -81,7 +81,7 @@ scenario = (:default,)
     y_global_o = Float64[]
     loss_gf = get_loss_gf(g, transM, f, y_global_o, int_ϕθP)
     l1 = loss_gf(p0, first(train_loader)...)
-    gr = Zygote.gradient(p -> loss_gf(p, train_loader.data...)[1], p0)
+    gr = Zygote.gradient(p -> loss_gf(p, train_loader.data...)[1], CA.getdata(p0))
     @test gr[1] isa Vector
 
     () -> begin
diff --git a/test/test_doubleMM.jl b/test/test_doubleMM.jl
index 5b6cc9d..726271a 100644
--- a/test/test_doubleMM.jl
+++ b/test/test_doubleMM.jl
@@ -84,11 +84,12 @@ end
     loss_gf = get_loss_gf(g, transM, f, y_global_o, int_ϕθP)
     l1 = loss_gf(p0, first(train_loader)...)[1]
     (xM_batch, xP_batch, y_o_batch, y_unc_batch) = first(train_loader)
-    Zygote.gradient(p0 -> loss_gf(p0, xM_batch, xP_batch, y_o_batch, y_unc_batch)[1], p0)
+    Zygote.gradient(p0 -> loss_gf(
+        p0, xM_batch, xP_batch, y_o_batch, y_unc_batch)[1], CA.getdata(p0))
 
     optf = Optimization.OptimizationFunction((ϕ, data) -> loss_gf(ϕ, data...)[1],
         Optimization.AutoZygote())
-    optprob = OptimizationProblem(optf, p0, train_loader)
+    optprob = OptimizationProblem(optf, CA.getdata(p0), train_loader)
 
     res = Optimization.solve(
         #optprob, Adam(0.02), callback = callback_loss(100), maxiters = 5000);
@@ -98,7 +99,7 @@ end
     #l1, y_pred_global, y_pred, θMs_pred = loss_gf(p0, xM, xP, y_o, y_unc);
     θMs_pred = CA.ComponentArray(θMs_pred, CA.getaxes(θMs_true))
     #TODO @test isapprox(par_templates.θP, int_ϕθP(res.u).θP, rtol = 0.15)
-    @test cor(vec(θMs_true), vec(θMs_pred)) > 0.9
+    #@test cor(vec(θMs_true), vec(θMs_pred)) > 0.8
     @test cor(θMs_true[:,1], θMs_pred[:,1]) > 0.8
     @test cor(θMs_true[:,2], θMs_pred[:,2]) > 0.8
 

From 245f796061dac68a2d1662788e978b957685e8c7 Mon Sep 17 00:00:00 2001
From: Thomas Wutzler <twutz@bgc-jena.mpg.de>
Date: Fri, 14 Feb 2025 14:29:08 +0100
Subject: [PATCH 3/3] implement HybridPosteriorSolver

---
 dev/doubleMM.jl              | 106 ++++++++++++++++++++---------------
 src/AbstractHybridProblem.jl |  30 ++++------
 src/HybridSolver.jl          |  57 ++++++++++++++-----
 src/elbo.jl                  |   2 +
 src/gf.jl                    |   2 +-
 src/init_hybrid_params.jl    |   2 +-
 src/util_ca.jl               |   4 ++
 test/test_HybridProblem.jl   |  51 ++++++++++++-----
 8 files changed, 162 insertions(+), 92 deletions(-)

diff --git a/dev/doubleMM.jl b/dev/doubleMM.jl
index ec71f22..f0fd939 100644
--- a/dev/doubleMM.jl
+++ b/dev/doubleMM.jl
@@ -24,15 +24,16 @@ xM_cpu = xM
 if :use_Flux ∈ scenario
     xM = CuArray(xM_cpu)
 end
-get_train_loader = (rng; n_batch, kwargs...) -> MLUtils.DataLoader((xM, xP, y_o, y_unc), batchsize = n_batch)
+get_train_loader = (rng; n_batch, kwargs...) -> MLUtils.DataLoader((xM, xP, y_o, y_unc); 
+    batchsize = n_batch, partial = false)
 σ_o = exp(first(y_unc)/2)
 
 # assign the train_loader, otherwise it eatch time creates another version of synthetic data
 prob0 = HVI.update(HybridProblem(DoubleMM.DoubleMMCase(); scenario); get_train_loader)
 
 #------- pointwise hybrid model fit
-#solver = HybridPointSolver(; alg = Adam(0.02), n_batch = 30)
-solver = HybridPointSolver(; alg = Adam(0.01), n_batch = 10)
+solver = HybridPointSolver(; alg = Adam(0.02), n_batch = 30)
+#solver = HybridPointSolver(; alg = Adam(0.01), n_batch = 10)
 #solver = HybridPointSolver(; alg = Adam(), n_batch = 200)
 (; ϕ, resopt) = solve(prob0, solver; scenario,
     rng, callback = callback_loss(100), maxiters = 1200);
@@ -116,7 +117,7 @@ end
     end
 end
     
-#----------- Hybrid Variational inference 
+#----------- Hybrid Variational inference: HVI
 
 using MLUtils
 import Zygote
@@ -124,62 +125,75 @@ import Zygote
 using CUDA
 using Bijectors
 
+solver = HybridPosteriorSolver(; alg = Adam(0.01), n_batch = 60, n_MC = 3)
+#solver = HybridPointSolver(; alg = Adam(), n_batch = 200)
+(; ϕ, θP, resopt) = solve(prob0o, solver; scenario,
+    rng, callback = callback_loss(100), maxiters = 800);
+# update the problem with optimized parameters
+prob1o = HVI.update(prob0o; ϕg=cpu_ca(ϕ).ϕg, θP=θP)
+y_pred_global, y_pred, θMs = gf(prob1o, xM, xP; scenario);
+scatterplot(θMs_true[1,:], θMs[1,:])
+scatterplot(θMs_true[2,:], θMs[2,:])
+hcat(θP_true, θP) # all parameters overestimated
 
-#n_covar = get_hybridproblem_n_covar(prob; scenario)
-#, n_batch, n_θM, n_θP) = get_hybridproblem_sizes(prob; scenario)
 
-n_covar = size(xM, 1)
+() -> begin
+    #n_covar = get_hybridproblem_n_covar(prob; scenario)
+    #, n_batch, n_θM, n_θP) = get_hybridproblem_sizes(prob; scenario)
 
-#----- fit g to θMs_true
-g, ϕg0 = get_hybridproblem_MLapplicator(prob; scenario);
-(; transP, transM) = get_hybridproblem_transforms(prob; scenario)
+    n_covar = size(xM, 1)
 
-function loss_g(ϕg, x, g, transM)
-    ζMs = g(x, ϕg) # predict the log of the parameters
-    θMs = reduce(hcat, map(transM, eachcol(ζMs))) # transform each column
-    loss = sum(abs2, θMs .- θMs_true)
-    return loss, θMs
-end
-loss_g(ϕg0, xM, g, transM)
+    #----- fit g to θMs_true
+    g, ϕg0 = get_hybridproblem_MLapplicator(prob; scenario);
+    (; transP, transM) = get_hybridproblem_transforms(prob; scenario)
 
-optf = Optimization.OptimizationFunction((ϕg, p) -> loss_g(ϕg, xM, g, transM)[1],
-    Optimization.AutoZygote())
-optprob = Optimization.OptimizationProblem(optf, ϕg0);
-res = Optimization.solve(optprob, Adam(0.02), callback = callback_loss(100), maxiters = 800);
+    function loss_g(ϕg, x, g, transM)
+        ζMs = g(x, ϕg) # predict the log of the parameters
+        θMs = reduce(hcat, map(transM, eachcol(ζMs))) # transform each column
+        loss = sum(abs2, θMs .- θMs_true)
+        return loss, θMs
+    end
+    loss_g(ϕg0, xM, g, transM)
+
+    optf = Optimization.OptimizationFunction((ϕg, p) -> loss_g(ϕg, xM, g, transM)[1],
+        Optimization.AutoZygote())
+    optprob = Optimization.OptimizationProblem(optf, ϕg0);
+    res = Optimization.solve(optprob, Adam(0.02), callback = callback_loss(100), maxiters = 800);
 
-ϕg_opt1 = res.u;
-l1, θMs_pred = loss_g(ϕg_opt1, xM, g, transM)
-scatterplot(vec(θMs_true), vec(θMs_pred))
+    ϕg_opt1 = res.u;
+    l1, θMs_pred = loss_g(ϕg_opt1, xM, g, transM)
+    scatterplot(vec(θMs_true), vec(θMs_pred))
 
-f = get_hybridproblem_PBmodel(prob; scenario)
-py = get_hybridproblem_neg_logden_obs(prob; scenario)
+    f = get_hybridproblem_PBmodel(prob; scenario)
+    py = get_hybridproblem_neg_logden_obs(prob; scenario)
 
-#----------- fit g and θP to y_o
-() -> begin
-    # end2end inversion
+    #----------- fit g and θP to y_o
+    () -> begin
+        # end2end inversion
 
-    int_ϕθP = ComponentArrayInterpreter(CA.ComponentVector(
-        ϕg = 1:length(ϕg0), θP = par_templates.θP))
-    p = p0 = vcat(ϕg0, par_templates.θP .* 0.9)  # slightly disturb θP_true
+        int_ϕθP = ComponentArrayInterpreter(CA.ComponentVector(
+            ϕg = 1:length(ϕg0), θP = par_templates.θP))
+        p = p0 = vcat(ϕg0, par_templates.θP .* 0.9)  # slightly disturb θP_true
 
-    # Pass the site-data for the batches as separate vectors wrapped in a tuple
-    train_loader = MLUtils.DataLoader((xM, xP, y_o, y_unc), batchsize = n_batch)
+        # Pass the site-data for the batches as separate vectors wrapped in a tuple
+        train_loader = MLUtils.DataLoader((xM, xP, y_o, y_unc), batchsize = n_batch)
 
-    loss_gf = get_loss_gf(g, f, y_global_o, int_ϕθP)
-    l1 = loss_gf(p0, train_loader.data...)[1]
+        loss_gf = get_loss_gf(g, f, y_global_o, int_ϕθP)
+        l1 = loss_gf(p0, train_loader.data...)[1]
 
-    optf = Optimization.OptimizationFunction((ϕ, data) -> loss_gf(ϕ, data...)[1],
-        Optimization.AutoZygote())
-    optprob = OptimizationProblem(optf, p0, train_loader)
+        optf = Optimization.OptimizationFunction((ϕ, data) -> loss_gf(ϕ, data...)[1],
+            Optimization.AutoZygote())
+        optprob = OptimizationProblem(optf, p0, train_loader)
 
-    res = Optimization.solve(
-        optprob, Adam(0.02), callback = callback_loss(100), maxiters = 1000)
+        res = Optimization.solve(
+            optprob, Adam(0.02), callback = callback_loss(100), maxiters = 1000)
 
-    l1, y_pred_global, y_pred, θMs = loss_gf(res.u, train_loader.data...)
-    scatterplot(vec(θMs_true), vec(θMs))
-    scatterplot(log.(vec(θMs_true)), log.(vec(θMs)))
-    scatterplot(vec(y_pred), vec(y_o))
-    hcat(par_templates.θP, int_ϕθP(res.u).θP)
+        l1, y_pred_global, y_pred, θMs = loss_gf(res.u, train_loader.data...)
+        scatterplot(vec(θMs_true), vec(θMs))
+        scatterplot(log.(vec(θMs_true)), log.(vec(θMs)))
+        scatterplot(vec(y_pred), vec(y_o))
+        hcat(par_templates.θP, int_ϕθP(res.u).θP)
+    end
 end
 
 #---------- HVI
diff --git a/src/AbstractHybridProblem.jl b/src/AbstractHybridProblem.jl
index 76eef4c..f4c1cc6 100644
--- a/src/AbstractHybridProblem.jl
+++ b/src/AbstractHybridProblem.jl
@@ -17,7 +17,6 @@ optionally
 """
 abstract type AbstractHybridProblem end;
 
-
 """
     get_hybridproblem_MLapplicator([rng::AbstractRNG,] ::AbstractHybridProblem; scenario=())
 
@@ -28,9 +27,9 @@ returns a Tuple of
 - AbstractModelApplicator
 - initial parameter vector
 """
-function get_hybridproblem_MLapplicator end    
+function get_hybridproblem_MLapplicator end
 
-function get_hybridproblem_MLapplicator(prob::AbstractHybridProblem; scenario=())
+function get_hybridproblem_MLapplicator(prob::AbstractHybridProblem; scenario = ())
     get_hybridproblem_MLapplicator(Random.default_rng(), prob; scenario)
 end
 
@@ -56,16 +55,14 @@ function get_hybridproblem_PBmodel end
 Provide a `function(y_obs, ypred) -> Real` that computes the negative logdensity
 of the observations, given the predictions.
 """
-function get_hybridproblem_neg_logden_obs end    
-
+function get_hybridproblem_neg_logden_obs end
 
 """
     get_hybridproblem_par_templates(::AbstractHybridProblem; scenario)
 
 Provide tuple of templates of ComponentVectors `θP` and `θM`.
 """
-function get_hybridproblem_par_templates end    
-
+function get_hybridproblem_par_templates end
 
 """
     get_hybridproblem_transforms(::AbstractHybridProblem; scenario)
@@ -96,7 +93,7 @@ function get_hybridproblem_n_covar(prob::AbstractHybridProblem; scenario)
     train_loader = get_hybridproblem_train_dataloader(Random.default_rng(), prob; scenario)
     (xM, xP, y_o, y_unc) = first(train_loader)
     n_covar = size(xM, 1)
-    return(n_covar)
+    return (n_covar)
 end
 
 """
@@ -118,7 +115,7 @@ function gen_hybridcase_synthetic end
 
 Determine the FloatType for given Case and scenario, defaults to Float32
 """
-function get_hybridproblem_float_type(prob::AbstractHybridProblem; scenario=())
+function get_hybridproblem_float_type(prob::AbstractHybridProblem; scenario = ())
     return eltype(get_hybridproblem_par_templates(prob; scenario).θM)
 end
 
@@ -131,12 +128,13 @@ Return a DataLoader that provides a tuple of
 - `y_o`: matrix of observations with added noise, with one column per site
 - `y_unc`: matrix `sizeof(y_o)` of uncertainty information 
 """
-function get_hybridproblem_train_dataloader(rng::AbstractRNG, prob::AbstractHybridProblem; 
-    scenario = (), n_batch = 10)
+function get_hybridproblem_train_dataloader(rng::AbstractRNG, prob::AbstractHybridProblem;
+        scenario = (), n_batch = 10)
     (; xM, xP, y_o, y_unc) = gen_hybridcase_synthetic(rng, prob; scenario)
     xM_gpu = :use_Flux ∈ scenario ? CuArray(xM) : xM
-    train_loader = MLUtils.DataLoader((xM_gpu, xP, y_o, y_unc), batchsize = n_batch)
-    return(train_loader)
+    train_loader = MLUtils.DataLoader((xM_gpu, xP, y_o, y_unc);
+        batchsize = n_batch, partial = false)
+    return (train_loader)
 end
 
 function get_hybridproblem_train_dataloader(prob::AbstractHybridProblem; scenario = ())
@@ -144,7 +142,6 @@ function get_hybridproblem_train_dataloader(prob::AbstractHybridProblem; scenari
     get_hybridproblem_train_dataloader(rng, prob; scenario)
 end
 
-
 """
     get_hybridproblem_cor_starts(prob::AbstractHybridProblem; scenario)
 
@@ -163,8 +160,5 @@ If there is only single block of all ML-predicted parameters being correlated
 with each other then this block starts at position 1: `(P=(1,3), M=(1,))`.
 """
 function get_hybridproblem_cor_starts(prob::AbstractHybridProblem; scenario = ())
-    (P=(1,), M=(1,))
+    (P = (1,), M = (1,))
 end
-
-
-
diff --git a/src/HybridSolver.jl b/src/HybridSolver.jl
index 220aada..db8a4b7 100644
--- a/src/HybridSolver.jl
+++ b/src/HybridSolver.jl
@@ -24,12 +24,13 @@ function CommonSolve.solve(prob::AbstractHybridProblem, solver::HybridPointSolve
     f = get_hybridproblem_PBmodel(prob; scenario)
     y_global_o = FT[] # TODO
     loss_gf = get_loss_gf(g, transM, f, y_global_o, int_ϕθP)
+    # call loss function once
+    l1 = loss_gf(p0, first(train_loader)...)[1]
     # data1 = first(train_loader)
-    # l1 = loss_gf(p0, first(train_loader)...)[1]
     # Zygote.gradient(p0 -> loss_gf(p0, data1...)[1], p0)
     optf = Optimization.OptimizationFunction((ϕ, data) -> loss_gf(ϕ, data...)[1],
         Optimization.AutoZygote())
-    optprob = OptimizationProblem(optf, p0, train_loader)
+    optprob = OptimizationProblem(optf, CA.getdata(p0), train_loader)
     res = Optimization.solve(optprob, solver.alg; kwargs...)
     (;ϕ = int_ϕθP(res.u), resopt = res)
 end
@@ -42,24 +43,54 @@ struct HybridPosteriorSolver{A} <: AbstractHybridSolver
     n_MC::Int
 
 end
-HybridPosteriorSolver(; alg, n_batch = 10, n_MC = 3) = HybridPointSolver(alg, n_batch, n_MC)
+HybridPosteriorSolver(; alg, n_batch = 10, n_MC = 3) = HybridPosteriorSolver(alg, n_batch, n_MC)
 
 function CommonSolve.solve(prob::AbstractHybridProblem, solver::HybridPosteriorSolver; 
     scenario, rng = Random.default_rng(), kwargs...)
     par_templates = get_hybridproblem_par_templates(prob; scenario)
+    (; θP, θM) = par_templates
     g, ϕg0 = get_hybridproblem_MLapplicator(prob; scenario);
     (; transP, transM) = get_hybridproblem_transforms(prob; scenario)
     (; ϕ, transPMs_batch, interpreters, get_transPMs, get_ca_int_PMs) = init_hybrid_params(
-        θP_true, θMs_true[:, 1], ϕg0, solver.n_batch; transP, transM);
+        θP, θM, ϕg0, solver.n_batch; transP, transM);
     use_gpu = (:use_Flux ∈ scenario)
-    # ϕd = use_gpu ? CuArray(ϕ) : ϕ
-    # train_loader = get_hybridproblem_train_dataloader(rng, prob; scenario, solver.n_batch)    
-    # f = get_hybridproblem_PBmodel(prob; scenario)
-    # y_global_o = Float32[] # TODO
-    # loss_gf = get_loss_gf(g, transM, f, y_global_o, int_ϕθP)
-    # optf = Optimization.OptimizationFunction((ϕ, data) -> loss_gf(ϕ, data...)[1],
-    #     Optimization.AutoZygote())
-    # optprob = OptimizationProblem(optf, p0, train_loader)
-    # res = Optimization.solve(optprob, solver.alg; kwargs...)
+    ϕ0 = use_gpu ? CuArray(ϕ) : ϕ # TODO replace CuArray by something more general
+    train_loader = get_hybridproblem_train_dataloader(rng, prob; scenario, solver.n_batch)    
+    f = get_hybridproblem_PBmodel(prob; scenario)
+    py = get_hybridproblem_neg_logden_obs(prob; scenario)
+    y_global_o = Float32[] # TODO
+    loss_elbo = get_loss_elbo(g, transPMs_batch, f, py, y_global_o, interpreters; solver.n_MC)
+    # test loss function once
+    l0 = loss_elbo(ϕ0, rng, first(train_loader)...)
+    optf = Optimization.OptimizationFunction((ϕ, data) -> loss_elbo(ϕ, rng, data...)[1],
+        Optimization.AutoZygote())
+    optprob = OptimizationProblem(optf, CA.getdata(ϕ0), train_loader)
+    res = Optimization.solve(optprob, solver.alg; kwargs...)
+    ϕc = interpreters.μP_ϕg_unc(res.u)
+    (;ϕ = ϕc, θP = cpu_ca(apply_preserve_axes(transP,ϕc.μP)), resopt = res)
+end
+
+"""
+Create a loss function for parameter vector ϕ, given 
+- g(x, ϕ): machine learning model 
+- transPMS: transformation from unconstrained space to parameter space
+- f(θMs, θP): mechanistic model 
+- interpreters: assigning structure to pure vectors, see neg_elbo_transnorm_gf
+- n_MC: number of Monte-Carlo sample to approximate the expected value across distribution
+
+The loss function takes in addition to ϕ, data that changes with minibatch
+- rng: random generator
+- xM: matrix of covariates, sites in columns
+- xP: drivers for the processmodel: Iterator of size n_site
+- y_o, y_unc: matrix of observations and uncertainties, sites in columns
+"""
+function get_loss_elbo(g, transPMs, f, py, y_o_global, interpreters; n_MC)
+    let g = g, transPMs = transPMs, f = f, py=py, y_o_global = y_o_global, n_MC = n_MC
+        interpreters = map(get_concrete, interpreters)
+        function loss_elbo(ϕ, rng, xM, xP, y_o, y_unc)
+            neg_elbo_transnorm_gf(rng, ϕ, g, transPMs, f, py,
+            xM, xP, y_o, y_unc, interpreters; n_MC)
+        end
+    end
 end
 
diff --git a/src/elbo.jl b/src/elbo.jl
index 3ac23b7..66b429b 100644
--- a/src/elbo.jl
+++ b/src/elbo.jl
@@ -87,6 +87,8 @@ function generate_ζ(rng, g, ϕ::AbstractVector, xM::AbstractMatrix,
     μ_ζMs0 = g(xM, ϕg) # TODO provide μ_ζP to g
     ζ_resid, σ = sample_ζ_norm0(rng, μ_ζP, μ_ζMs0, ϕc.unc; n_MC, cor_starts)
     #ζ_resid, σ = sample_ζ_norm0(rng, ϕ[1:2], reshape(ϕ[2 .+ (1:20)],2,:), ϕ[(end-length(interpreters.unc)+1):end], interpreters.unc; n_MC)
+    # @show size(ζ_resid)
+    # @show length(interpreters.PMs)
     ζ = stack(map(eachcol(ζ_resid)) do r
         rc = interpreters.PMs(r)
         ζP = μ_ζP .+ rc.P
diff --git a/src/gf.jl b/src/gf.jl
index 882c4af..2604d89 100644
--- a/src/gf.jl
+++ b/src/gf.jl
@@ -52,7 +52,7 @@ Create a loss function for parameter vector p, given
 - int_ϕθP: interpreter attachin axis with compponents ϕg and pc.θP
 """
 function get_loss_gf(g, transM, f, y_o_global, int_ϕθP::AbstractComponentArrayInterpreter)
-    let g = g, transM = transM, f = f, int_ϕθP = int_ϕθP
+    let g = g, transM = transM, f = f, int_ϕθP = int_ϕθP, y_o_global = y_o_global
         function loss_gf(p, xM, xP, y_o, y_unc)
             σ = exp.(y_unc ./ 2)
             pc = int_ϕθP(p)
diff --git a/src/init_hybrid_params.jl b/src/init_hybrid_params.jl
index 8d33fbd..c048c2f 100644
--- a/src/init_hybrid_params.jl
+++ b/src/init_hybrid_params.jl
@@ -37,7 +37,7 @@ function init_hybrid_params(θP, θM, ϕg, n_batch;
         ρsP,
         ρsM)
     ϕ = CA.ComponentVector(;
-        μP = inverse(transP)(θP),
+        μP = apply_preserve_axes(inverse(transP),θP),
         ϕg = ϕg,
         unc = ϕunc0);
     #
diff --git a/src/util_ca.jl b/src/util_ca.jl
index d7cc80a..212f05d 100644
--- a/src/util_ca.jl
+++ b/src/util_ca.jl
@@ -6,4 +6,8 @@ Move ComponentArray form gpu to cpu.
 function cpu_ca end
 # define in FluxExt
 
+function apply_preserve_axes(f, ca::CA.ComponentArray)
+    CA.ComponentArray(f(ca), CA.getaxes(ca))
+end
+
 
diff --git a/test/test_HybridProblem.jl b/test/test_HybridProblem.jl
index cef1bee..d8ca77e 100644
--- a/test/test_HybridProblem.jl
+++ b/test/test_HybridProblem.jl
@@ -14,11 +14,11 @@ using OptimizationOptimisers
 
 construct_problem = () -> begin
     FT = Float32
-    θP = CA.ComponentVector{FT}(r0=0.3, K2=2.0)
-    θM = CA.ComponentVector{FT}(r1=0.5, K1=0.2)
+    θP = CA.ComponentVector{FT}(r0 = 0.3, K2 = 2.0)
+    θM = CA.ComponentVector{FT}(r1 = 0.5, K1 = 0.2)
     transP = elementwise(exp)
     transM = Stacked(elementwise(identity), elementwise(exp))
-    cov_starts = (P=(1, 2), M=(1)) # assume r0 independent of K2
+    cov_starts = (P = (1, 2), M = (1)) # assume r0 independent of K2
     n_covar = 5
     n_batch = 10
     int_θdoubleMM = get_concrete(ComponentArrayInterpreter(
@@ -49,11 +49,11 @@ construct_problem = () -> begin
     rng = StableRNG(111)
     # dependency on DeoubleMMCase -> take care of changes in covariates
     (; xM, n_site, θP_true, θMs_true, xP, y_global_true, y_true, y_global_o, y_o, y_unc
-    ) = gen_hybridcase_synthetic(rng, DoubleMM.DoubleMMCase())
+) = gen_hybridcase_synthetic(rng, DoubleMM.DoubleMMCase())
     py = neg_logden_indep_normal
     get_train_loader = let xM = xM, xP = xP, y_o = y_o, y_unc = y_unc
         function inner_get_train_loader(rng; n_batch, kwargs...)
-            MLUtils.DataLoader((xM, xP, y_o, y_unc), batchsize=n_batch)
+            MLUtils.DataLoader((xM, xP, y_o, y_unc), batchsize = n_batch, partial = false)
         end
     end
     HybridProblem(θP, θM, g_chain, f_doubleMM_with_global, py,
@@ -73,7 +73,7 @@ scenario = (:default,)
     (; transM, transP) = get_hybridproblem_transforms(prob; scenario)
 
     int_ϕθP = ComponentArrayInterpreter(CA.ComponentVector(
-        ϕg=1:length(ϕg0), θP=par_templates.θP))
+        ϕg = 1:length(ϕg0), θP = par_templates.θP))
     p = p0 = vcat(ϕg0, par_templates.θP .* 0.8)  # slightly disturb θP_true
 
     # Pass the site-data for the batches as separate vectors wrapped in a tuple
@@ -91,10 +91,10 @@ scenario = (:default,)
 
         res = Optimization.solve(
             #        optprob, Adam(0.02), callback = callback_loss(100), maxiters = 1000);
-            optprob, Adam(0.02), maxiters=1000)
+            optprob, Adam(0.02), maxiters = 1000)
 
         l1, y_pred_global, y_pred, θMs_pred = loss_gf(res.u, train_loader.data...)
-        @test isapprox(par_templates.θP, int_ϕθP(res.u).θP, rtol=0.11)
+        @test isapprox(par_templates.θP, int_ϕθP(res.u).θP, rtol = 0.11)
     end
 end
 
@@ -120,12 +120,12 @@ import Flux
 
     cost = neg_elbo_transnorm_gf(rng, ϕ_ini, g, transPMs_batch, f, py,
         xM, xP, y_o, y_unc, map(get_concrete, interpreters);
-        n_MC=8)
+        n_MC = 8)
     @test cost isa Float64
     gr = Zygote.gradient(
         ϕ -> neg_elbo_transnorm_gf(rng, ϕ, g, transPMs_batch, f, py,
             xM, xP, y_o, y_unc, map(get_concrete, interpreters);
-            n_MC=8),
+            n_MC = 8),
         CA.getdata(ϕ_ini))
     @test gr[1] isa Vector
 
@@ -139,7 +139,7 @@ import Flux
                     Flux.Dense(n_covar => n_covar * 4, tanh),
                     Flux.Dense(n_covar * 4 => n_covar * 4, tanh),
                     # dense layer without bias that maps to n outputs and `identity` activation
-                    Flux.Dense(n_covar * 4 => n_out, identity, bias=false)
+                    Flux.Dense(n_covar * 4 => n_out, identity, bias = false)
                 )
                 construct_ChainsApplicator(g_chain, eltype(θM0))
             end
@@ -148,15 +148,40 @@ import Flux
             xMg = CuArray(xM)
             cost = neg_elbo_transnorm_gf(rng, ϕ, g, transPMs_batch, f, py,
                 xMg, xP, y_o, y_unc, map(get_concrete, interpreters);
-                n_MC=8)
+                n_MC = 8)
             @test cost isa Float64
             gr = Zygote.gradient(
                 ϕ -> neg_elbo_transnorm_gf(rng, ϕ, g, transPMs_batch, f, py,
                     xMg, xP, y_o, y_unc, map(get_concrete, interpreters);
-                    n_MC=8),
+                    n_MC = 8),
                 ϕ)
             @test gr[1] isa CuVector
             @test eltype(gr[1]) == get_hybridproblem_float_type(prob)
         end
     end
 end
+
+@testset "HybridPointSolver" begin
+    rng = StableRNG(111)
+    solver = HybridPointSolver(; alg = Adam(0.02), n_batch = 11)
+    (; ϕ, resopt) = solve(prob, solver; scenario, rng,
+        #callback = callback_loss(100), maxiters = 1200
+        #maxiters = 1200
+        #maxiters = 20
+        maxiters = 200
+    )
+    (;θP) = get_hybridproblem_par_templates(prob; scenario)
+    @test ϕ.θP.r0 < 1.5*θP.r0
+end;
+
+@testset "HybridPosteriorSolver" begin
+    rng = StableRNG(111)
+    solver = HybridPosteriorSolver(; alg = Adam(0.02), n_batch = 11, n_MC=3)
+    (; ϕ, θP, resopt) = solve(prob, solver; scenario, rng,
+        #callback = callback_loss(100), maxiters = 1200
+        #maxiters = 20 # yields error
+        maxiters = 200
+    )
+    θPt = get_hybridproblem_par_templates(prob; scenario).θP
+    @test θP.r0 < 1.5*θPt.r0
+end;