change crying_baby

SidhartK · SidhartK · commit 52c30d821478 · 2021-04-24T18:39:40.000-07:00
diff --git a/src/pomdp/crying_baby.jl b/src/pomdp/crying_baby.jl
@@ -121,12 +121,12 @@ function DiscretePOMDP(pomdp::BabyPOMDP; γ::Float64=pomdp.γ)
     T[s_h, a_i, :] = [0.0, 1.0]
     T[s_h, a_s, :] = [0.0, 1.0]
 
-    R[s_s, a_f, :] = reward(pomdp, s_s, a_f)
-    R[s_s, a_i, :] = reward(pomdp, s_s, a_i)
-    R[s_s, a_s, :] = reward(pomdp, s_s, a_s)
-    R[s_h, a_f, :] = reward(pomdp, s_h, a_f)
-    R[s_h, a_i, :] = reward(pomdp, s_h, a_i)
-    R[s_h, a_s, :] = reward(pomdp, s_h, a_s)
+    R[s_s, a_f] = reward(pomdp, s_s, a_f)
+    R[s_s, a_i] = reward(pomdp, s_s, a_i)
+    R[s_s, a_s] = reward(pomdp, s_s, a_s)
+    R[s_h, a_f] = reward(pomdp, s_h, a_f)
+    R[s_h, a_i] = reward(pomdp, s_h, a_i)
+    R[s_h, a_s] = reward(pomdp, s_h, a_s)
 
     O[a_f, s_s, :] = [observation(pomdp, a_f, s_s).p, 1 - observation(pomdp, a_f, s_s).p]
     O[a_f, s_h, :] = [observation(pomdp, a_f, s_h).p, 1 - observation(pomdp, a_f, s_h).p]
@@ -139,44 +139,6 @@ function DiscretePOMDP(pomdp::BabyPOMDP; γ::Float64=pomdp.γ)
 end
 
 function POMDP(pomdp::BabyPOMDP; γ::Float64=pomdp.γ)
-    nS = n_states(pomdp)
-    nA = n_actions(pomdp)
-    nO = n_observations(pomdp)
-
-    T = zeros(nS, nA, nS)
-    R = Array{Float64}(undef, nS, nA)
-    O = Array{Float64}(undef, nA, nS, nO)
-
-    s_s = 1
-    s_h = 2
-
-    a_f = 1
-    a_i = 2
-    a_s = 3
-
-    o_c = 1
-    o_q = 2
-
-    T[s_s, a_f, :] = [1.0, 0.0]
-    T[s_s, a_i, :] = [1.0-pomdp.p_become_hungry, pomdp.p_become_hungry]
-    T[s_s, a_s, :] = [1.0-pomdp.p_become_hungry, pomdp.p_become_hungry]
-    T[s_h, a_f, :] = [1.0, 0.0]
-    T[s_h, a_i, :] = [0.0, 1.0]
-    T[s_h, a_s, :] = [0.0, 1.0]
-
-    R[s_s, a_f, :] = reward(pomdp, s_s, a_f)
-    R[s_s, a_i, :] = reward(pomdp, s_s, a_i)
-    R[s_s, a_s, :] = reward(pomdp, s_s, a_s)
-    R[s_h, a_f, :] = reward(pomdp, s_h, a_f)
-    R[s_h, a_i, :] = reward(pomdp, s_h, a_i)
-    R[s_h, a_s, :] = reward(pomdp, s_h, a_s)
-
-    O[a_f, s_s, :] = [observation(pomdp, a_f, s_s).p, 1 - observation(pomdp, a_f, s_s).p]
-    O[a_f, s_h, :] = [observation(pomdp, a_f, s_h).p, 1 - observation(pomdp, a_f, s_h).p]
-    O[a_i, s_s, :] = [observation(pomdp, a_i, s_s).p, 1 - observation(pomdp, a_i, s_s).p]
-    O[a_i, s_h, :] = [observation(pomdp, a_i, s_h).p, 1 - observation(pomdp, a_i, s_h).p]
-    O[a_s, s_s, :] = [observation(pomdp, a_s, s_s).p, 1 - observation(pomdp, a_s, s_s).p]
-    O[a_s, s_h, :] = [observation(pomdp, a_s, s_h).p, 1 - observation(pomdp, a_s, s_h).p]
-
-    return POMDP(DiscretePOMDP(T, R, O, γ))
+    disc_pomdp = DiscretePOMDP(pomdp)
+    return POMDP(disc_pomdp)
 end
diff --git a/test/runtests.jl b/test/runtests.jl
@@ -91,7 +91,7 @@ end
     @test 0 <= p.observation(m, rand(1:3), rand(1:2)).p <= 1
     @test p.reward(m, rand(1:2), rand(1:3)) <= 0
     @test p.reward(m, [0.1, 0.9], rand(1:3)) <= 0
-    pomdp = p.POMDP(m)
+    pomdp = p.DiscretePOMDP(m)
 end
 
 @testset "machine_replacement.jl" begin