cleanup, exports

mykelk · mykelk · commit 49b8440c5b3b · 2021-11-22T22:30:47.000-08:00
diff --git a/src/DecisionMakingProblems.jl b/src/DecisionMakingProblems.jl
@@ -9,28 +9,29 @@ using Parameters
 using Statistics
 using Printf
 
+export 
+    MDP, HexWorld, StraightLineHexWorld, TwentyFortyEight, CartPole, MountainCar, LQR, CollisionAvoidance,
+    POMDP, DiscretePOMDP, CryingBaby, MachineReplacement, Catch,
+    SimpleGame, PrisonersDilemma, RockPaperScissors, Travelers,
+    MG, PredatorPreyHexWorld, CirclePredatorPreyHexWorld,
+    POMG, MultiCaregiverCryingBaby,
+    DecPOMDP, CollaborativePredatorPreyHexWorld, SimpleCollaborativePredatorPreyHexWorld, CircleCollaborativePredatorPreyHexWorld
+
 import Base: <, ==, rand, vec
 
 include("support_code.jl")
 
-# include("search/search.jl")
-# include("search/hex_world.jl")
-
 include("mdp/mdp.jl")
 include("mdp/discrete_mdp.jl")
-# include("mdp/sliding_tile_puzzle.jl")
-# include("mdp/gridworld.jl
 include("mdp/2048.jl")
 include("mdp/hexworld.jl")
-# include("mdp/you_get_what_you_bet.jl")
 include("mdp/simple_lqr.jl")
 include("mdp/cart_pole.jl")
 include("mdp/mountain_car.jl")
 include("mdp/collision_avoidance.jl")
 
 include("pomdp/pomdp.jl")
 include("pomdp/discrete_pomdp.jl")
-# include("pomdp/spelunker_joe.jl")
 include("pomdp/crying_baby.jl")
 include("pomdp/machine_replacement.jl")
 include("pomdp/catch.jl")
@@ -49,6 +50,4 @@ include("pomg/multicaregiver.jl")
 include("decpomdp/decpomdp.jl")
 include("decpomdp/collab_predator_prey.jl")
 
-
-
 end # module
diff --git a/src/mdp/collision_avoidance.jl b/src/mdp/collision_avoidance.jl
@@ -1,4 +1,4 @@
-@with_kw struct CollisionAvoidanceMDP
+@with_kw struct CollisionAvoidance
     ddh_max::Float64 = 1.0 # vertical acceleration limit [m/s²]
     collision_threshold::Float64 = 50.0 # collision threshold [m]
     reward_collision::Float64 = -1.0 # reward obtained if collision occurs
@@ -9,16 +9,16 @@
     Pν::SetCategorical{Float64} = SetCategorical([2.0, 0.0, -2.0], [0.25, 0.5, 0.25])
 end
 
-struct CollisionAvoidanceMDPState
+struct CollisionAvoidanceState
     h::Float64 # vertical separation [m]
     dh::Float64 # rate of change of h [m/s]
     a_prev::Float64 # previous acceleration [m/s²]
     τ::Float64 # horizontal separation time [s]
 end
 
-Base.vec(s::CollisionAvoidanceMDPState) = [s.h, s.dh, s.a_prev, s.τ]
+Base.vec(s::CollisionAvoidanceState) = [s.h, s.dh, s.a_prev, s.τ]
 
-function transition(𝒫::CollisionAvoidanceMDP, s::CollisionAvoidanceMDPState, a::Float64)
+function transition(𝒫::CollisionAvoidance, s::CollisionAvoidanceState, a::Float64)
     h = s.h + s.dh
     dh = s.dh
     if a != 0.0
@@ -31,14 +31,14 @@ function transition(𝒫::CollisionAvoidanceMDP, s::CollisionAvoidanceMDPState,
     a_prev = a
     τ = max(s.τ - 1.0, -1.0)
     states = [
-        CollisionAvoidanceMDPState(h, dh + ν, a_prev, τ) for ν in 𝒫.Pν.elements
+        CollisionAvoidanceState(h, dh + ν, a_prev, τ) for ν in 𝒫.Pν.elements
     ]
     return SetCategorical(states, 𝒫.Pν.distr.p)
 end
 
-is_terminal(𝒫::CollisionAvoidanceMDP, s::CollisionAvoidanceMDPState) = s.τ < 0.0
+is_terminal(𝒫::CollisionAvoidance, s::CollisionAvoidanceState) = s.τ < 0.0
 
-function reward(𝒫::CollisionAvoidanceMDP, s::CollisionAvoidanceMDPState, a::Float64)
+function reward(𝒫::CollisionAvoidance, s::CollisionAvoidanceState, a::Float64)
     r = 0.0
     if abs(s.h) < 𝒫.collision_threshold && abs(s.τ) < eps()
         # We collided
@@ -59,7 +59,7 @@ end
 end
 
 function rand(b::CollisionAvoidanceStateDistribution)
-    return CollisionAvoidanceMDPState(Distributions.rand(b.h), Distributions.rand(b.dh), b.a_prev, b.tau)
+    return CollisionAvoidanceState(Distributions.rand(b.h), Distributions.rand(b.dh), b.a_prev, b.tau)
 end
 
 @with_kw struct SimpleCollisionAvoidancePolicy
@@ -74,7 +74,7 @@ struct OptimalCollisionAvoidancePolicy
     Q
 end
 
-function OptimalCollisionAvoidancePolicy(mdp = CollisionAvoidanceMDP())
+function OptimalCollisionAvoidancePolicy(mdp = CollisionAvoidance())
     𝒜 = mdp.𝒜
 
     hs = range(-200, 200, length=21) # discretization of h in m
@@ -85,7 +85,7 @@ function OptimalCollisionAvoidancePolicy(mdp = CollisionAvoidanceMDP())
     grid = GridInterpolations.RectangleGrid(hs, dhs, 𝒜, τs)
 
     # State space
-    𝒮 = [CollisionAvoidanceMDPState(h, dh, a_prev, τ) for h in hs, dh in dhs, a_prev in mdp.𝒜, τ in τs]
+    𝒮 = [CollisionAvoidanceState(h, dh, a_prev, τ) for h in hs, dh in dhs, a_prev in mdp.𝒜, τ in τs]
 
     # State value function
     U = zeros(length(𝒮))
@@ -105,7 +105,7 @@ function OptimalCollisionAvoidancePolicy(mdp = CollisionAvoidanceMDP())
     return OptimalCollisionAvoidancePolicy(mdp.𝒜, grid, Q)
 end
 
-function action(policy::OptimalCollisionAvoidancePolicy, s::CollisionAvoidanceMDPState)
+function action(policy::OptimalCollisionAvoidancePolicy, s::CollisionAvoidanceState)
     vec_s = vec(s)
     a_best = first(policy.𝒜)
     q_best = -Inf
@@ -118,18 +118,18 @@ function action(policy::OptimalCollisionAvoidancePolicy, s::CollisionAvoidanceMD
     return a_best
 end
 
-function (policy::OptimalCollisionAvoidancePolicy)(s::CollisionAvoidanceMDPState)
+function (policy::OptimalCollisionAvoidancePolicy)(s::CollisionAvoidanceState)
     return action(policy, s)
 end
 
-function action(policy::SimpleCollisionAvoidancePolicy, s::CollisionAvoidanceMDPState)
+function action(policy::SimpleCollisionAvoidancePolicy, s::CollisionAvoidanceState)
     if abs(s.h) < policy.thresh_h && s.τ < policy.thresh_τ
         return (s.h > 0.0) ? policy.𝒜.up : policy.𝒜.down
     end
     return policy.𝒜.noalert
 end
 
-function (policy::SimpleCollisionAvoidancePolicy)(s::CollisionAvoidanceMDPState)
+function (policy::SimpleCollisionAvoidancePolicy)(s::CollisionAvoidanceState)
     return action(policy, s)
 end
 
@@ -139,7 +139,7 @@ struct CollisionAvoidanceValueFunction
     U
 end
 
-function CollisionAvoidanceValueFunction(𝒫::CollisionAvoidanceMDP, policy)
+function CollisionAvoidanceValueFunction(𝒫::CollisionAvoidance, policy)
     𝒜 = 𝒫.𝒜
 
     hs = range(-200, 200, length=21) # discretization of h in m
@@ -150,7 +150,7 @@ function CollisionAvoidanceValueFunction(𝒫::CollisionAvoidanceMDP, policy)
     grid = GridInterpolations.RectangleGrid(hs, dhs, 𝒜, τs)
 
     # State space
-    𝒮 = [CollisionAvoidanceMDPState(h, dh, a_prev, τ) for h in hs, dh in dhs, a_prev in 𝒫.𝒜, τ in τs]
+    𝒮 = [CollisionAvoidanceState(h, dh, a_prev, τ) for h in hs, dh in dhs, a_prev in 𝒫.𝒜, τ in τs]
 
     # State value function
     U = zeros(length(𝒮))
@@ -170,7 +170,7 @@ function (U::CollisionAvoidanceValueFunction)(s)
     return GridInterpolations.interpolate(U.grid, U.U, vec(s))
 end
 
-function MDP(mdp::CollisionAvoidanceMDP; γ::Float64=1.0)
+function MDP(mdp::CollisionAvoidance; γ::Float64=1.0)
     return MDP(
             γ,
             nothing, # no ordered states
diff --git a/src/mdp/simple_lqr.jl b/src/mdp/simple_lqr.jl
@@ -8,7 +8,7 @@ generate_start_state(mdp::LQR) = rand(Normal(0.3,0.1))
 
 function transition(mdp::LQR, s::Float64, a::Float64)
     # NOTE: Truncated to prevent going off to infinity with poor policies
-    return Truncated(Normal(s + a, 0.1), -10.0, 10.0)
+    return truncated(Normal(s + a, 0.1), -10.0, 10.0)
 end
 reward(mdp::LQR, s::Float64, a::Float64) = -s^2
 
diff --git a/test/runtests.jl b/test/runtests.jl
@@ -1,20 +1,16 @@
 using DecisionMakingProblems
-# using PGFPlots
 using Test
 using Random
 using LinearAlgebra
 using GridInterpolations
 
-# @assert success(`lualatex -v`)
-# using NBInclude
-# @nbinclude(joinpath(dirname(@__FILE__), "..", "doc", "PGFPlots.ipynb"))
 const p = DecisionMakingProblems
 
 # MDP
 
 @testset "2048.jl" begin
-    m = p.TwentyFortyEight()
-    mdp = p.MDP(m)
+    m = TwentyFortyEight()
+    mdp = MDP(m)
     @test length(mdp.𝒜) == 4
     @test mdp.γ == 1.0
     init_state = p.initial_board()
@@ -24,8 +20,8 @@ const p = DecisionMakingProblems
 end
 
 @testset "cart_pole.jl" begin
-    # m = p.CartPole(1.0, 10.0, 1.0, 1.0, 0.1, 9.8, 0.02, 4.8, deg2rad(24))
-    m = p.CartPole()
+    # m = CartPole(1.0, 10.0, 1.0, 1.0, 0.1, 9.8, 0.02, 4.8, deg2rad(24))
+    m = CartPole()
     @test p.n_actions(m) == 2
     @test p.discount(m) == 1.0
     @test p.ordered_actions(m) == 1:2
@@ -36,11 +32,11 @@ end
     @test !p.is_terminal(m, state)
     @test min_state <= p.vec(p.cart_pole_transition(m, state, rand(1:2))) <= max_state
     @test p.reward(m, state, rand(1:2)) in [0.0, 1.0]
-    mdp = p.MDP(m)
+    mdp = MDP(m)
 end
 
 @testset "collision_avoidance.jl" begin
-    m = p.CollisionAvoidanceMDP()
+    m = CollisionAvoidance()
     distrib = p.CollisionAvoidanceStateDistribution()
     s = p.rand(distrib)
     simple_pol = p.SimpleCollisionAvoidancePolicy()
@@ -49,11 +45,11 @@ end
     @test p.is_terminal(m, s) == (p.vec(s)[4] < 0.0)
     @test p.reward(m, rand(p.transition(m, s, optimal_pol(s))), rand(m.𝒜)) <= 0
     policy = p.CollisionAvoidanceValueFunction(m, simple_pol)
-    mdp = p.MDP(m)
+    mdp = MDP(m)
 end
 
 @testset "hexworld.jl" begin
-    m = p.HexWorld()
+    m = HexWorld()
     hexes = m.hexes
     @test p.n_states(m) == length(hexes) + 1 && p.ordered_states(m) == 1:length(hexes) + 1
     @test p.n_actions(m) == 6 && p.ordered_actions(m) == 1:6
@@ -69,19 +65,19 @@ end
     @test p.generate_sr(m, state, action)[1] in p.ordered_states(m) && p.generate_sr(m, state, action)[2] <= 10
     @test p.generate_start_state(m) in p.ordered_states(m)
     @test p.hex_distance(rand(hexes), rand(hexes)) >= 0
-    mdp = p.MDP(m)
+    mdp = MDP(m)
 end
 @testset "simple_lqr.jl" begin
-    m = p.LQR()
+    m = LQR()
     @test p.discount(m) == 1.0
     state = p.generate_start_state(m)
     @test -10 <= rand(p.transition(m, state, rand())) <= 10
     @test p.reward(m, state, rand()) <= 0
-    mdp = p.MDP(m)
+    mdp = MDP(m)
 end
 
 @testset "mountain_car.jl" begin
-    m = p.MountainCar()
+    m = MountainCar()
     @test p.n_actions(m) == 3 && p.ordered_actions(m) == [1, 2, 3]
     @test p.discount(m) == 1.0
     state_min = [-1.2, -0.07]
@@ -90,15 +86,14 @@ end
     @test all(state_min <= start_state <= state_max)
     @test all(state_min <= p.mountain_car_transition(start_state, 1) <= state_max)
     @test p.reward(m, start_state, 1) <= 0
-    mdp = p.MDP(m)
+    mdp = MDP(m)
 end
 
 
 # POMDP
 
 @testset "crying_baby.jl" begin
-    # m = p.CryingBaby(-10.0, -5.0, -0.5, 0.1, 0.8, 0.1, 0.9, 0.9)
-    m = p.CryingBaby()
+    m = CryingBaby()
     @test p.n_states(m) == 2 && p.ordered_states(m) == [1, 2]
     @test p.n_actions(m) == 3 && p.ordered_actions(m) == [1, 2, 3]
     @test p.n_observations(m) == 2 && p.ordered_observations(m) == [true, false]
@@ -111,9 +106,8 @@ end
 end
 
 @testset "machine_replacement.jl" begin
-    # m = p.generate_machine_replacement_pomdp(1.0)
-    mdp = p.MachineReplacement()
-    m = p.DiscretePOMDP(mdp)
+    mdp = MachineReplacement()
+    m = DiscretePOMDP(mdp)
     @test p.n_states(m) == 3 && p.ordered_states(m) == 1:3
     @test p.n_actions(m) == 4 && p.ordered_actions(m) == 1:4
     @test p.n_observations(m) == 2 && p.ordered_observations(m) == 1:2
@@ -125,9 +119,8 @@ end
 end
 
 @testset "catch.jl" begin
-    # m = p.generate_catch_pomdp(0.9)
-    mdp = p.Catch()
-    m = p.DiscretePOMDP(mdp)
+    mdp = Catch()
+    m = DiscretePOMDP(mdp)
     @test p.n_states(m) == 4 && p.ordered_states(m) == 1:4
     @test p.n_actions(m) == 10 && p.ordered_actions(m) == 1:10
     @test p.n_observations(m) == 2 && p.ordered_observations(m) == 1:2
@@ -142,7 +135,7 @@ end
 # Simple Game
 
 @testset "prisoners_dilemma.jl" begin
-    m = p.PrisonersDilemma()
+    m = PrisonersDilemma()
     @test p.n_agents(m) == 2
     @test length(p.ordered_actions(m, rand(1:2))) == 2 && length(p.ordered_joint_actions(m)) == 4
     @test p.n_actions(m, rand(1:2)) == 2 && p.n_joint_actions(m) == 4
@@ -152,7 +145,7 @@ end
 end
 
 @testset "rock_paper_scissors.jl" begin
-    m = p.RockPaperScissors()
+    m = RockPaperScissors()
     @test p.n_agents(m) == 2
     @test length(p.ordered_actions(m, rand(1:2))) == 3 && length(p.ordered_joint_actions(m)) == 9
     @test p.n_actions(m, rand(1:2)) == 3 && p.n_joint_actions(m) == 9
@@ -162,7 +155,7 @@ end
 end
 
 @testset "travelers.jl" begin
-    m = p.Travelers()
+    m = Travelers()
     @test p.n_agents(m) == 2
     @test length(p.ordered_actions(m, rand(1:2))) == 99 && length(p.ordered_joint_actions(m)) == 99^2
     @test p.n_actions(m, rand(1:2)) == 99 && p.n_joint_actions(m) == 99^2
@@ -175,7 +168,7 @@ end
 # Markov Game
 
 @testset "predator_prey.jl" begin
-    m = p.PredatorPreyHexWorld()
+    m = PredatorPreyHexWorld()
     hexes = m.hexes
     @test p.n_agents(m) == 2
     @test length(p.ordered_states(m, rand(1:2))) == length(hexes) && length(p.ordered_states(m)) == length(hexes)^2
@@ -191,7 +184,7 @@ end
 # POMG
 
 @testset "multicaregiver.jl" begin
-    m = p.MultiCaregiverCryingBaby()
+    m = MultiCaregiverCryingBaby()
     @test p.n_agents(m) == 2
     @test length(p.ordered_states(m)) == 2
     @test length(p.ordered_actions(m, rand(1:2))) == 3 && length(p.ordered_joint_actions(m)) == 9
@@ -210,7 +203,7 @@ end
 # DecPOMDP
 
 @testset "collab_predator_prey.jl" begin
-    m = p.CollaborativePredatorPreyHexWorld()
+    m = CollaborativePredatorPreyHexWorld()
     hexes = m.hexes
     @test p.n_agents(m) == 2
     @test length(p.ordered_states(m, rand(1:2))) == length(hexes) && length(p.ordered_states(m)) == length(hexes)^3