d3group
diff --git a/‎ddopai/_modidx.py‎
Lines changed: 2 additions & 0 deletions b/‎ddopai/_modidx.py‎
Lines changed: 2 additions & 0 deletions
diff --git a/‎ddopai/meta_learning/environments/env_utils/vec_env/dummy_vec_env.py‎
Lines changed: 1 addition & 1 deletion b/‎ddopai/meta_learning/environments/env_utils/vec_env/dummy_vec_env.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎ddopai/meta_learning/environments/parallel_envs.py‎
Lines changed: 35 additions & 35 deletions b/‎ddopai/meta_learning/environments/parallel_envs.py‎
Lines changed: 35 additions & 35 deletions
diff --git a/‎ddopai/meta_learning/environments/pricing_env/pricing_env.py‎
Lines changed: 4 additions & 2 deletions b/‎ddopai/meta_learning/environments/pricing_env/pricing_env.py‎
Lines changed: 4 additions & 2 deletions
diff --git a/‎ddopai/meta_learning/environments/wrappers.py‎
Lines changed: 1 addition & 1 deletion b/‎ddopai/meta_learning/environments/wrappers.py‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎ddopai/meta_learning/utils/helpers.py‎
Lines changed: 35 additions & 83 deletions b/‎ddopai/meta_learning/utils/helpers.py‎
Lines changed: 35 additions & 83 deletions
@@ -1684,6 +1684,8 @@
                                                                                                                                                            'ddopai/meta_learning/environments/pricing_env/pricing_env.py'),
                                                                            'ddopai.meta_learning.environments.pricing_env.pricing_env.PricingEnv.reset_task': ( '50_meta_learning/53_environments/01_pricing_env/pricing_env.html#pricingenv.reset_task',
                                                                                                                                                                 'ddopai/meta_learning/environments/pricing_env/pricing_env.py'),
+                                                                           'ddopai.meta_learning.environments.pricing_env.pricing_env.PricingEnv.seed': ( '50_meta_learning/53_environments/01_pricing_env/pricing_env.html#pricingenv.seed',
+                                                                                                                                                          'ddopai/meta_learning/environments/pricing_env/pricing_env.py'),
                                                                            'ddopai.meta_learning.environments.pricing_env.pricing_env.PricingEnv.step': ( '50_meta_learning/53_environments/01_pricing_env/pricing_env.html#pricingenv.step',
                                                                                                                                                           'ddopai/meta_learning/environments/pricing_env/pricing_env.py'),
                                                                            'ddopai.meta_learning.environments.pricing_env.pricing_env.PricingEnv.visualise_behaviour': ( '50_meta_learning/53_environments/01_pricing_env/pricing_env.html#pricingenv.visualise_behaviour',
 
@@ -39,7 +39,7 @@ def __init__(self, env_fns):
         self.keys, shapes, dtypes = obs_space_info(obs_space)
 
         self.buf_obs = {k: np.zeros((self.num_envs,) + tuple(shapes[k]), dtype=dtypes[k]) for k in self.keys}
-        self.buf_dones = np.zeros((self.num_envs,), dtype=np.bool)
+        self.buf_dones = np.zeros((self.num_envs,), dtype=bool)
         self.buf_rews = np.zeros((self.num_envs,), dtype=np.float32)
         self.buf_infos = [{} for _ in range(self.num_envs)]
         self.actions = None
 
@@ -1,7 +1,7 @@
 # AUTOGENERATED! DO NOT EDIT! File to edit: ../../../nbs/50_meta_learning/53_environments/20_parralel_envs.ipynb.
 
 # %% auto 0
-__all__ = ['make_env', 'make_vec_envs', 'VecPyTorch']
+__all__ = ['make_env', 'VecPyTorch', 'make_vec_envs']
 
 # %% ../../../nbs/50_meta_learning/53_environments/20_parralel_envs.ipynb 1
 import gym
@@ -31,40 +31,6 @@ def _thunk():
     return _thunk
 
 # %% ../../../nbs/50_meta_learning/53_environments/20_parralel_envs.ipynb 3
-def make_vec_envs(env_name, seed, num_processes, gamma,
-                  device, episodes_per_task,
-                  normalise_rew, ret_rms,
-                  args, mode='train',
-                  rank_offset=0,
-                  **kwargs):
-    """
-    :param ret_rms: running return and std for rewards
-    """
-    envs = [make_env(env_id=env_name, seed=seed, rank=rank_offset + i,
-                     episodes_per_task=episodes_per_task,
-                     mode=mode, args=args, **kwargs)
-            for i in range(num_processes)]
-
-    if len(envs) > 1:
-        envs = SubprocVecEnv(envs)
-    else:
-        envs = DummyVecEnv(envs)
-
-    if len(envs.observation_space.shape) == 1:
-        if ret_rms is not None:
-            # copy this here to make sure the new envs don't change the return stats where this comes from
-            ret_rms = copy.copy(ret_rms)
-
-        envs = VecNormalize(envs,
-                            normalise_rew=normalise_rew, ret_rms=ret_rms,
-                            gamma=0.99 if gamma is None else gamma,
-                            cliprew=args.norm_rew_clip_param if 'norm_rew_clip_param' in vars(args) else 10.0)
-
-    envs = VecPyTorch(envs, device)
-
-    return envs
-
-# %% ../../../nbs/50_meta_learning/53_environments/20_parralel_envs.ipynb 4
 class VecPyTorch(VecEnvWrapper):
     def __init__(self, venv, device):
         """Return only every `skip`-th frame"""
@@ -128,3 +94,37 @@ def hooked(*args, **kwargs):
             return hooked
         else:
             return orig_attr
+
+# %% ../../../nbs/50_meta_learning/53_environments/20_parralel_envs.ipynb 4
+def make_vec_envs(env_name, seed, num_processes, gamma,
+                  device, episodes_per_task,
+                  normalise_rew, ret_rms,
+                  args, mode='train',
+                  rank_offset=0,
+                  **kwargs):
+    """
+    :param ret_rms: running return and std for rewards
+    """
+    envs = [make_env(env_id=env_name, seed=seed, rank=rank_offset + i,
+                     episodes_per_task=episodes_per_task,
+                     mode=mode, args=args, **kwargs)
+            for i in range(num_processes)]
+
+    if len(envs) > 1:
+        envs = SubprocVecEnv(envs)
+    else:
+        envs = DummyVecEnv(envs)
+
+    if len(envs.observation_space.shape) == 1:
+        if ret_rms is not None:
+            # copy this here to make sure the new envs don't change the return stats where this comes from
+            ret_rms = copy.copy(ret_rms)
+
+        envs = VecNormalize(envs,
+                            normalise_rew=normalise_rew, ret_rms=ret_rms,
+                            gamma=0.99 if gamma is None else gamma,
+                            cliprew=args.norm_rew_clip_param if 'norm_rew_clip_param' in vars(args) else 10.0)
+
+    envs = VecPyTorch(envs, device)
+
+    return envs
@@ -113,7 +113,7 @@ def __init__(self,
             low=-self._BIG, high=self._BIG,
             shape=(self.task_dim,), dtype=np.float32
         )
-
+        self.seed()
         # -------- set latent task & episode ----------------------------------
         self.reset_task(task)
         self.reset()
@@ -192,7 +192,9 @@ def step(self, action):
         }
         return obs, reward, done, info
 
-
+    def seed(self, seed=None):
+        self.np_random, seed = gym.utils.seeding.np_random(seed)
+        return [seed]
     # ===================================================================== #
     #                         internal helpers                               #
     # ===================================================================== #
 
@@ -44,7 +44,7 @@ def __init__(self,
         if not hasattr(self.env.unwrapped, 'num_states'):
             self.env.unwrapped.num_states = None
         if not hasattr(self.env.unwrapped, '_max_episode_steps'):  # Meta-World ML10/ML45
-            self.env.unwrapped._max_episode_steps = env.max_path_length
+            self.env.unwrapped._max_episode_steps = env.horizon
 
         if episodes_per_task > 1:
             self.add_done_info = True
 
@@ -18,93 +18,45 @@
 import torch
 import torch.nn as nn
 from torch.nn import functional as F
-
+from ..environments.pricing_env.pricing_env import PricingEnv
+from ..environments.wrappers import PrevActRewWrapper
 device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
 
 # %% ../../../nbs/50_meta_learning/50_utils/20_helpers.ipynb 2
-def make_env(args, mode='train', train_task_override=None, **kwargs):
-    env_id = args.env_name
-
-    # NEW ENV: METAWORLD
-    if env_id.startswith('metaworld'):
-
-        if args.mw_version == 1:
-            from environments.metaworld import metaworld
-        elif args.mw_version == 2:
-            from environments.metaworld_v2 import metaworld
-
-        env_type = 'metaworld'
-
-        # --- ML1 ---
-        # import the right meta-world-environment
-        if env_id == 'metaworld_ml1':
-            env_name = f'{args.ml1_type}-v{args.mw_version}'
-            mworld = metaworld.ML1(env_name)  # Construct the benchmark, sampling tasks
-            # set up train/test env
-            if mode == 'train':
-                env = mworld.train_classes[env_name]()
-                if train_task_override is not None:
-                    env.reset_task = lambda: env.set_task(random.choice(train_task_override))
-                else:
-                    env.reset_task = lambda: env.set_task(random.choice(mworld.train_tasks))
-            elif mode == 'test':
-                env = mworld.test_classes[env_name]()
-                env.reset_task = lambda: env.set_task(random.choice(mworld.test_tasks))
-
-        # --- ML10 ---
-        elif env_id == 'metaworld_ml10':
-            ml10 = metaworld.ML10()
-            # if mode == 'train':
-            #     n_envs = 10
-            # elif mode == 'test':
-            #     n_envs = 5
-            # else:
-            #     raise ValueError
-
-            # n_tasks = n_envs * 1  # Leo: This ensures 1 env of each is sampled.
-            from environments.garage.experiment.task_sampler import MetaWorldTaskSampler # Can't do this at top since it breaks MuJoCo131 needed for Walker
-            task_sampler = MetaWorldTaskSampler(ml10,
-                                                mode,  # train or test
-                                                wrapper=None,
-                                                # lambda env, _: normalize(env),  # TODO: not sure if we should use this
-                                                add_env_onehot=False)
-            # envs = [env_up() for env_up in task_sampler.sample(n_tasks)]
-            from environments.mw_wrapper import MetaWorldMultiEnvWrapper # Can't do this at top since it breaks MuJoCo131 needed for Walker
-            env = MetaWorldMultiEnvWrapper(task_sampler,
-                                           n_tasks_train=10,
-                                           n_tasks_test=5, # needed to make one-hot ids
-                                           mode='vanilla',
-                                           train=(mode=='train'))
-        else:
-            raise ValueError
-        env._max_episode_steps = env.max_path_length
-    elif env_id.startswith('T-') or env_id.startswith('MC-'):
-        env = gym.make(env_id, **kwargs)
-        env_type = "Maze"
-    # OTHERWISE WE ASSUME ITS A GYM ENV
-    else:
-        env_type = 'gym'
-        if args is not None and args.env_name == 'RoomNavi-v0':
-            env = gym.make(env_id,
-                           num_cells=args.num_cells,
-                           corridor_len=args.corridor_len,
-                           num_steps=args.horizon,
-                           **kwargs)
-        if args is not None and args.env_name == 'TreasureHunt-v0':
-            env = gym.make(env_id,
-                           max_episode_steps=args.max_episode_steps,
-                           mountain_height=args.mountain_height,
-                           treasure_reward=args.treasure_reward,
-                           timestep_penalty=args.timestep_penalty,
-                           **kwargs)
-        elif args is not None and args.env_name == 'AntGoalSparse-v0':
-            env = gym.make(env_id,
-                           level=args.level,
-                           **kwargs)
-        else:
-            env = gym.make(env_id, **kwargs)
+# --------------------------------------------------------------------
+def make_env(args, mode='train', **kwargs):
+    """
+    Create **one** PricingEnv with the requested wrappers.
+
+    Parameters
+    ----------
+    args  : argparse.Namespace  – needs at least
+            * env_name               (should be 'Pricing-v0' or similar)
+            * pricing_kwargs         (dict forwarded to PricingEnv)
+            * ar_in_state            (bool, adds PrevActRewWrapper)
+            * max_episode_length     (int, TimeLimit wrapper)
+    mode  : 'train' | 'test' – kept for API compatibility; ignored here.
+    """
+    assert args.env_name.lower().startswith('pricing'), \
+        "This trimmed helper only supports PricingEnv."
+
+    # base env --------------------------------------------------------
+    env = PricingEnv(**args.pricing_kwargs)
+
+    # RL^2 needs (s_{t-1}, a_{t-1}, r_{t-1}) in the observation
+    if args.ar_in_state:
+        env = PrevActRewWrapper(env)
+
+
+    # optional obs normalisation (reuse Hyper’s wrapper if desired)
+    if getattr(args, "norm_obs", False):
+        from ddopai.meta_learning.environments.wrappers import NormaliseObservations
+        env = NormaliseObservations(env, clip=10.0, eps=1e-8,
+                                    training=(mode == 'train'))
+
+
+    return env, "pricing"
 
-    return env, env_type
 
 
 def reset_env(env, args, indices=None, state=None):