add epsilonnoise policy

kengz · kengz · commit 9d4ccd3d7e29 · 2017-04-26T22:16:11.000-04:00
diff --git a/rl/policy/noise.py b/rl/policy/noise.py
@@ -1,6 +1,7 @@
 import numpy as np
 from rl.util import log_self
 from rl.policy.base_policy import Policy
+from rl.policy.epsilon_greedy import EpsilonGreedyPolicy
 
 
 class NoNoisePolicy(Policy):
@@ -63,6 +64,26 @@ def update(self, sys_vars):
             self.n_step = sys_vars['epi']
 
 
+class EpsilonGreedyNoisePolicy(EpsilonGreedyPolicy, NoNoisePolicy):
+
+    '''
+    akin to epsilon greedy decay,
+    but return random sample instead
+    '''
+
+    def sample(self):
+        if self.e > np.random.rand():
+            noise = np.random.uniform(
+                0.5 * self.env_spec['action_bound_low'],
+                0.5 * self.env_spec['action_bound_high'])
+        else:
+            noise = 0
+        return noise
+
+    def select_action(self, state):
+        return NoNoisePolicy.select_action(self, state)
+
+
 class AnnealedGaussianPolicy(LinearNoisePolicy):
 
     '''
diff --git a/rl/spec/classic_experiment_specs.json b/rl/spec/classic_experiment_specs.json
@@ -736,6 +736,37 @@
       ]
     }
   },
+  "pendulum_ddpg_epsilonnoise": {
+    "problem": "Pendulum-v0",
+    "Agent": "DDPG",
+    "HyperOptimizer": "GridSearch",
+    "Memory": "LinearMemoryWithForgetting",
+    "Optimizer": "AdamOptimizer",
+    "Policy": "EpsilonGreedyNoisePolicy",
+    "PreProcessor": "NoPreProcessor",
+    "param": {
+      "batch_size": 64,
+      "n_epoch": 1,
+      "tau": 0.005,
+      "lr": 0.001,
+      "critic_lr": 0.001,
+      "exploration_anneal_episodes": 50,
+      "gamma": 0.97,
+      "hidden_layers": [400, 300],
+      "hidden_layers_activation": "relu",
+      "output_layer_activation": "tanh"
+    },
+    "param_range": {
+      "lr": [0.0001, 0.0005, 0.001],
+      "critic_lr": [0.001, 0.005],
+      "gamma": [0.95, 0.97, 0.99],
+      "hidden_layers": [
+        [400, 300],
+        [800, 400, 200],
+        [800, 600, 400, 200]
+      ]
+    }
+  },
   "pendulum_ddpg_linearnoise": {
     "problem": "Pendulum-v0",
     "Agent": "DDPG",