First draft at implementing generic SIL and generic DAgger

BatyLeo · BatyLeo · commit 400af8ed2c31 · 2025-09-02T17:38:10.000+02:00
diff --git a/.gitignore b/.gitignore
@@ -4,3 +4,6 @@
 /Manifest*.toml
 /docs/Manifest*.toml
 /docs/build/
+tensorboard_logs
+.vscode
+Manifest.toml
diff --git a/Project.toml b/Project.toml
@@ -1,9 +1,22 @@
 name = "DecisionFocusedLearningAlgorithms"
 uuid = "46d52364-bc3b-4fac-a992-eb1d3ef2de15"
 authors = ["Members of JuliaDecisionFocusedLearning and contributors"]
-version = "1.0.0-DEV"
+version = "0.0.1"
+
+[deps]
+DecisionFocusedLearningBenchmarks = "2fbe496a-299b-4c81-bab5-c44dfc55cf20"
+Flux = "587475ba-b771-5e3f-ad9e-33799f191a9c"
+InferOpt = "4846b161-c94e-4150-8dac-c7ae193c601f"
+MLUtils = "f1d291b0-491e-4a28-83b9-f70985020b54"
+ProgressMeter = "92933f4c-e287-5a05-a399-4b506db050ca"
+UnicodePlots = "b8865327-cd53-5732-bb35-84acbb429228"
 
 [compat]
+Flux = "0.16.5"
+InferOpt = "0.7.1"
+MLUtils = "0.4.8"
+ProgressMeter = "1.11.0"
+UnicodePlots = "3.8.1"
 julia = "1.11"
 
 [extras]
diff --git a/docs/Project.toml b/docs/Project.toml
@@ -1,3 +1,4 @@
 [deps]
 DecisionFocusedLearningAlgorithms = "46d52364-bc3b-4fac-a992-eb1d3ef2de15"
 Documenter = "e30172f5-a6a5-5a46-863b-614d45cd2de4"
+Literate = "98b081ad-f1c9-55d3-8b20-4c87d4299306"
diff --git a/docs/make.jl b/docs/make.jl
@@ -1,7 +1,23 @@
 using DecisionFocusedLearningAlgorithms
 using Documenter
 
-DocMeta.setdocmeta!(DecisionFocusedLearningAlgorithms, :DocTestSetup, :(using DecisionFocusedLearningAlgorithms); recursive=true)
+DocMeta.setdocmeta!(
+    DecisionFocusedLearningAlgorithms,
+    :DocTestSetup,
+    :(using DecisionFocusedLearningAlgorithms);
+    recursive=true,
+)
+
+tutorial_dir = joinpath(@__DIR__, "src", "tutorials")
+
+include_tutorial = true
+
+if include_tutorial
+    for file in tutorial_files
+        filepath = joinpath(tutorial_dir, file)
+        Literate.markdown(filepath, md_dir; documenter=true, execute=false)
+    end
+end
 
 makedocs(;
     modules=[DecisionFocusedLearningAlgorithms],
@@ -12,9 +28,7 @@ makedocs(;
         edit_link="main",
         assets=String[],
     ),
-    pages=[
-        "Home" => "index.md",
-    ],
+    pages=["Home" => "index.md", "Tutorials" => include_tutorial ? md_tutorial_files : []],
 )
 
 deploydocs(;
diff --git a/docs/src/tutorials/tutorial.jl b/docs/src/tutorials/tutorial.jl
@@ -0,0 +1,47 @@
+# Tutorial
+using DecisionFocusedLearningAlgorithms
+using DecisionFocusedLearningBenchmarks
+using MLUtils: splitobs
+using Plots
+
+b = ArgmaxBenchmark()
+dataset = generate_dataset(b, 100)
+train_instances, validation_instances, test_instances = splitobs(
+    dataset; at=(0.3, 0.3, 0.4)
+)
+
+model = generate_statistical_model(b; seed=0)
+maximizer = generate_maximizer(b)
+
+compute_gap(b, test_instances, model, maximizer)
+
+metrics_callbacks = (;
+    :time => (model, maximizer, epoch) -> (epoch_time = time()),
+    :gap => (;
+        :val =>
+            (model, maximizer, epoch) ->
+                (gap = compute_gap(b, validation_instances, model, maximizer)),
+        :test =>
+            (model, maximizer, epoch) ->
+                (gap = compute_gap(b, test_instances, model, maximizer)),
+    ),
+)
+
+fyl_model = deepcopy(model)
+log = fyl_train_model!(
+    fyl_model,
+    maximizer,
+    train_instances,
+    validation_instances;
+    epochs=100,
+    metrics_callbacks,
+)
+
+log[:gap]
+plot(
+    [log[:gap].val, log[:gap].test];
+    labels=["Val Gap" "Test Gap"],
+    xlabel="Epoch",
+    ylabel="Gap",
+)
+plot(log[:validation_loss])
diff --git a/scripts/Project.toml b/scripts/Project.toml
@@ -0,0 +1,6 @@
+[deps]
+DecisionFocusedLearningAlgorithms = "46d52364-bc3b-4fac-a992-eb1d3ef2de15"
+DecisionFocusedLearningBenchmarks = "2fbe496a-299b-4c81-bab5-c44dfc55cf20"
+MLUtils = "f1d291b0-491e-4a28-83b9-f70985020b54"
+Plots = "91a5bcdd-55d7-5caf-9e0b-520d859cae80"
+TensorBoardLogger = "899adc3e-224a-11e9-021f-63837185c80f"
diff --git a/scripts/main.jl b/scripts/main.jl
@@ -0,0 +1,86 @@
+using DecisionFocusedLearningAlgorithms
+using DecisionFocusedLearningBenchmarks
+using MLUtils
+using Statistics
+
+struct KleopatraPolicy{M}
+    model::M
+end
+
+function (m::KleopatraPolicy)(env)
+    x, instance = observe(env)
+    θ = m.model(x)
+    return maximizer(θ; instance)
+end
+
+fyl_train_model(ArgmaxBenchmark(); epochs=1000)
+baty_train_model(DynamicVehicleSchedulingBenchmark(; two_dimensional_features=false))
+DAgger_train_model(DynamicVehicleSchedulingBenchmark(; two_dimensional_features=false))
+
+b = DynamicVehicleSchedulingBenchmark(; two_dimensional_features=false)
+dataset = generate_dataset(b, 100)
+train_instances, validation_instances, test_instances = splitobs(
+    dataset; at=(0.3, 0.3, 0.4)
+)
+train_environments = generate_environments(b, train_instances; seed=0)
+validation_environments = generate_environments(b, validation_instances)
+test_environments = generate_environments(b, test_instances)
+
+train_dataset = vcat(map(train_environments) do env
+    v, y = generate_anticipative_solution(b, env; reset_env=true)
+    return y
+end...)
+
+val_dataset = vcat(map(validation_environments) do env
+    v, y = generate_anticipative_solution(b, env; reset_env=true)
+    return y
+end...)
+
+model = generate_statistical_model(b; seed=0)
+maximizer = generate_maximizer(b)
+anticipative_policy = (env; reset_env) -> generate_anticipative_solution(b, env; reset_env)
+
+fyl_model = deepcopy(model)
+fyl_policy = Policy("fyl", "", KleopatraPolicy(fyl_model))
+
+metrics_callbacks = (;
+    obj=(model, maximizer, epoch) ->
+        mean(evaluate_policy!(fyl_policy, test_environments, 1)[1])
+)
+
+fyl_loss = fyl_train_model!(
+    fyl_model, maximizer, train_dataset, val_dataset; epochs=100, metrics_callbacks
+)
+
+dagger_model = deepcopy(model)
+dagger_policy = Policy("dagger", "", KleopatraPolicy(dagger_model))
+metrics_callbacks = (;
+    obj=(model, maximizer, epoch) ->
+        mean(evaluate_policy!(dagger_policy, test_environments, 1)[1])
+)
+dagger_loss = DAgger_train_model!(
+    dagger_model,
+    maximizer,
+    train_environments,
+    validation_environments,
+    anticipative_policy;
+    iterations=10,
+    fyl_epochs=10,
+    metrics_callbacks,
+)
+
+plot(
+    0:100,
+    [fyl_loss.obj[1:end], dagger_loss.obj[1:end]];
+    labels=["FYL" "DAgger"],
+    xlabel="Epoch",
+    ylabel="Test Average Reward (1 scenario)",
+)
+
+using Statistics
+v_fyl, _ = evaluate_policy!(fyl_policy, test_environments, 100)
+v_dagger, _ = evaluate_policy!(dagger_policy, test_environments, 100)
+mean(v_fyl)
+mean(v_dagger)
+
+anticipative_policy(test_environments[1]; reset_env=true)
diff --git a/scripts/tb.jl b/scripts/tb.jl
@@ -0,0 +1,27 @@
+using TensorBoardLogger, Logging, Random
+
+lg = TBLogger("tensorboard_logs/run"; min_level=Logging.Info)
+
+struct sample_struct
+    first_field
+    other_field
+end
+
+with_logger(lg) do
+    for i in 1:100
+        x0 = 0.5 + i / 30
+        s0 = 0.5 / (i / 20)
+        edges = collect(-5:0.1:5)
+        centers = collect(edges[1:(end - 1)] .+ 0.05)
+        histvals = [exp(-((c - x0) / s0)^2) for c in centers]
+        data_tuple = (edges, histvals)
+        data_struct = sample_struct(i^2, i^1.5 - 0.3 * i)
+
+        @info "test" i = i j = i^2 dd = rand(10) .+ 0.1 * i hh = data_tuple
+        @info "test_2" i = i j = 2^i hh = data_tuple log_step_increment = 0
+        @info "" my_weird_struct = data_struct log_step_increment = 0
+        @debug "debug_msg" this_wont_show_up = i
+    end
+end
+
+Dict(:loss => (s, i) -> s + i, :accuracy => (s, i) -> s - i)
diff --git a/src/DecisionFocusedLearningAlgorithms.jl b/src/DecisionFocusedLearningAlgorithms.jl
@@ -1,5 +1,18 @@
 module DecisionFocusedLearningAlgorithms
 
-# Write your package code here.
+using DecisionFocusedLearningBenchmarks
+const DVSP = DecisionFocusedLearningBenchmarks.DynamicVehicleScheduling
+using Flux: Flux, Adam
+using InferOpt: InferOpt, FenchelYoungLoss, PerturbedAdditive
+using MLUtils: splitobs
+using ProgressMeter: @showprogress
+using UnicodePlots: lineplot
+
+include("utils/metrics.jl")
+include("fyl.jl")
+include("dagger.jl")
+
+export fyl_train_model!,
+    fyl_train_model, baty_train_model, DAgger_train_model!, DAgger_train_model
 
 end
diff --git a/src/dagger.jl b/src/dagger.jl
@@ -0,0 +1,87 @@
+
+function DAgger_train_model!(
+    model,
+    maximizer,
+    train_environments,
+    validation_environments,
+    anticipative_policy;
+    iterations=5,
+    fyl_epochs=3,
+    metrics_callbacks::NamedTuple=NamedTuple(),
+)
+    α = 1.0
+    train_dataset = vcat(map(train_environments) do env
+        v, y = anticipative_policy(env; reset_env=true)
+        return y
+    end...)
+    val_dataset = vcat(map(validation_environments) do env
+        v, y = anticipative_policy(env; reset_env=true)
+        return y
+    end...)
+
+    dataset = deepcopy(train_dataset)
+    all_metrics = []
+    for iter in 1:iterations
+        println("DAgger iteration $iter")
+        metrics = fyl_train_model!(
+            model,
+            maximizer,
+            dataset,
+            val_dataset;
+            epochs=fyl_epochs,
+            metrics_callbacks=metrics_callbacks,
+        )
+        push!(all_metrics, metrics)
+        new_samples = eltype(dataset)[]
+        # Dataset update
+        for env in train_environments
+            reset!(env; reset_rng=false)
+            while !is_terminated(env)
+                x_before = copy(observe(env)[1])
+                _, anticipative_solution = anticipative_policy(env; reset_env=false)
+                p = rand()
+                target = anticipative_solution[1]
+                x, state = observe(env)
+                if size(target.x) != size(x)
+                    @error "Mismatch between expert and observed state" size(target.x) size(
+                        x
+                    )
+                end
+                push!(new_samples, target)
+                if p < α
+                    action = target.y_true
+                else
+                    x, state = observe(env)
+                    θ = model(x)
+                    action = maximizer(θ; instance=state)  # ! not benchmark generic
+                end
+                step!(env, action)
+            end
+        end
+        dataset = new_samples  # TODO: replay buffer
+        α *= 0.9  # Decay factor for mixing expert and learned policy
+    end
+
+    return _flatten_dagger_metrics(all_metrics)
+end
+
+function DAgger_train_model(b::AbstractStochasticBenchmark{true}; kwargs...)
+    dataset = generate_dataset(b, 30)
+    train_instances, validation_instances, test_instances = dataset[1:10],
+    dataset[11:20],
+    dataset[21:30]
+    train_environments = generate_environments(b, train_instances; seed=0)
+    validation_environments = generate_environments(b, validation_instances)
+    model = generate_statistical_model(b)
+    maximizer = generate_maximizer(b)
+    anticipative_policy =
+        (env; reset_env) -> generate_anticipative_solution(b, env; reset_env)
+    return DAgger_train_model!(
+        model,
+        maximizer,
+        train_environments,
+        validation_environments,
+        anticipative_policy;
+        kwargs...,
+    )
+end
diff --git a/src/dfl_policy.jl b/src/dfl_policy.jl
@@ -0,0 +1,10 @@
+struct DFLPolicy{F,M}
+    model::F
+    maximizer::M
+end
+
+function (p::DFLPolicy)(x; kwargs...)
+    θ = p.model(x)
+    y = p.maximizer(θ; kwargs...)
+    return y
+end
diff --git a/src/fyl.jl b/src/fyl.jl
diff --git a/src/utils/metrics.jl b/src/utils/metrics.jl
diff --git a/test/runtests.jl b/test/runtests.jl