bugfix and update tests

BatyLeo · BatyLeo · commit e244f7723afa · 2025-11-05T17:44:58.000+01:00
diff --git a/src/Utils/policy.jl b/src/Utils/policy.jl
@@ -88,12 +88,12 @@ function evaluate_policy!(
     policy, envs::Vector{<:AbstractEnvironment}, episodes::Int=1; kwargs...
 )
     E = length(envs)
-    rewards = zeros(Float64, E)
+    avg_rewards = zeros(Float64, E)
     datasets = map(1:E) do e
         rewards, datasets = evaluate_policy!(policy, envs[e], episodes; kwargs...)
-        rewards[e] = sum(reward) / episodes
+        avg_rewards[e] = sum(rewards) / episodes
         dataset = vcat(datasets...)
         return dataset
     end
-    return rewards, vcat(datasets...)
+    return avg_rewards, vcat(datasets...)
 end
diff --git a/test/dynamic_vsp.jl b/test/dynamic_vsp.jl
@@ -45,7 +45,7 @@
     θ2 = model2(x2)
     y2 = maximizer(θ2; instance=instance2)
     @test size(x, 1) == 2
-    @test size(x2, 1) == 14
+    @test size(x2, 1) == 27
 
     anticipative_value, solution = generate_anticipative_solution(b, env; reset_env=true)
     reset!(env; reset_rng=true)