next try

miTTimmiTTim · miTTimmiTTim · commit d3db406dbf26 · 2025-08-01T10:41:40.000+02:00
diff --git a/ddopai/meta_learning/environments/pricing_env/pricing_env.py b/ddopai/meta_learning/environments/pricing_env/pricing_env.py
@@ -259,21 +259,23 @@ def visualise_behaviour(env,
         Visualise behaviour in PricingEnv: plots price (action) and revenue (reward) per timestep.
         The environment passed to this method should be a vectorised env (DummyVecEnv or SubprocVecEnv).
         """
-        import matplotlib.pyplot as plt
-        import torch
-        import numpy as np
-
-        device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
 
         num_episodes = args.max_rollouts_per_task
         unwrapped_env = env.venv.unwrapped.envs[0]
 
+        episode_all_obs = [[] for _ in range(num_episodes)]
         episode_prev_obs = [[] for _ in range(num_episodes)]
         episode_next_obs = [[] for _ in range(num_episodes)]
         episode_actions = [[] for _ in range(num_episodes)]
         episode_rewards = [[] for _ in range(num_episodes)]
         episode_returns = []
+        episode_lengths = []
 
+        if args.pass_belief_to_policy and (encoder is None):
+            episode_beliefs = [[] for _ in range(num_episodes)]
+        else:
+            episode_beliefs = None
+            
         if encoder is not None:
             episode_latent_samples = [[] for _ in range(num_episodes)]
             episode_latent_means = [[] for _ in range(num_episodes)]
@@ -282,70 +284,102 @@ def visualise_behaviour(env,
             episode_latent_samples = episode_latent_means = episode_latent_logvars = None
 
         env.reset_task()
-        state, belief, task = utl.reset_env(env, args)
-        start_obs_raw = state.clone()
-        task = task.view(-1) if task is not None else None
+        [state, belief, task] = utl.reset_env(env, args)
+        start_obs = state.clone()
 
-        hidden_state = torch.zeros((1, args.hidden_size), device=device) if hasattr(args, 'hidden_size') else None
+        for episode_idx in range(num_episodes):
 
-        for ep_idx in range(num_episodes):
-            obs = env.reset()
             curr_rollout_rew = []
 
-            if ep_idx == 0 and encoder is not None:
-                curr_latent_sample, curr_latent_mean, curr_latent_logvar, hidden_state = encoder.prior(1)
-                curr_latent_sample = curr_latent_sample[0].to(device)
-                curr_latent_mean = curr_latent_mean[0].to(device)
-                curr_latent_logvar = curr_latent_logvar[0].to(device)
+            
 
             if encoder is not None:
-                episode_latent_samples[ep_idx].append(curr_latent_sample[0].clone())
-                episode_latent_means[ep_idx].append(curr_latent_mean[0].clone())
-                episode_latent_logvars[ep_idx].append(curr_latent_logvar[0].clone())
-
-            for t in range(env._max_episode_steps):
-                prev_obs = torch.as_tensor(obs, dtype=torch.float32, device=device).unsqueeze(0)
-                episode_prev_obs[ep_idx].append(prev_obs.squeeze(0).clone())
-
-                latent = utl.get_latent_for_policy(args, curr_latent_sample, curr_latent_mean, curr_latent_logvar)
-                _, action, _ = policy.act(prev_obs, latent, belief=None, task=task, deterministic=True)
-
-                obs, reward, done, info = env.step(action.cpu().numpy())
-                obs = torch.as_tensor(obs, dtype=torch.float32, device=device).unsqueeze(0)
-
-                episode_next_obs[ep_idx].append(obs.squeeze(0).clone())
-                episode_actions[ep_idx].append(action.squeeze(0).clone())
-                episode_rewards[ep_idx].append(torch.tensor(reward, dtype=torch.float32, device=device).clone())
-                curr_rollout_rew.append(reward)
+                
+                if ep_idx == 0 and encoder is not None:
+                    # reset to prior
+                    curr_latent_sample, curr_latent_mean, curr_latent_logvar, hidden_state = encoder.prior(1)
+                    curr_latent_sample = curr_latent_sample[0].to(device)
+                    curr_latent_mean = curr_latent_mean[0].to(device)
+                    curr_latent_logvar = curr_latent_logvar[0].to(device)
+                    
+                episode_latent_samples[episode_idx].append(curr_latent_sample[0].clone())
+                episode_latent_means[episode_idx].append(curr_latent_mean[0].clone())
+                episode_latent_logvars[episode_idx].append(curr_latent_logvar[0].clone())
+
+            episode_all_obs[episode_idx].append(start_obs.clone())
+            if args.pass_belief_to_policy and (encoder is None):
+                episode_beliefs[episode_idx].append(belief)
+                
+            for step_idx in range(env._max_episode_steps):
+                
+                if step_idx == 1:
+                    prev_obs = start_obs.clone()
+                else:
+                    prev_obs = state.clone()
+                    
+                episode_prev_obs[episode_idx].append(prev_obs)
+                
+                                # act
+                _, action, _ = utl.select_action(args=args,
+                                                 policy=policy,
+                                                 state=state.view(-1),
+                                                 belief=belief,
+                                                 task=task,
+                                                 deterministic=True,
+                                                 latent_sample=curr_latent_sample.view(-1) if (curr_latent_sample is not None) else None,
+                                                 latent_mean=curr_latent_mean.view(-1) if (curr_latent_mean is not None) else None,
+                                                 latent_logvar=curr_latent_logvar.view(-1) if (curr_latent_logvar is not None) else None,
+                                                 )
+                
+                # observe reward and next obs
+                [state, belief, task], (rew_raw, rew_normalised), done, infos = utl.env_step(env, action, args)
 
                 if encoder is not None:
+                    # update task embedding
                     curr_latent_sample, curr_latent_mean, curr_latent_logvar, hidden_state = encoder(
-                        action.reshape(1, -1).float().to(device),
-                        obs,
-                        torch.tensor([reward], dtype=torch.float32, device=device).unsqueeze(0),
+                        action.float().to(device),
+                        state,
+                        rew_raw.reshape((1, 1)).float().to(device),
                         prev_obs,
                         hidden_state,
-                        return_prior=False,
-                    )
-                    episode_latent_samples[ep_idx].append(curr_latent_sample[0].clone())
-                    episode_latent_means[ep_idx].append(curr_latent_mean[0].clone())
-                    episode_latent_logvars[ep_idx].append(curr_latent_logvar[0].clone())
+                        return_prior=False)
+
+                    episode_latent_samples[episode_idx].append(curr_latent_sample[0].clone())
+                    episode_latent_means[episode_idx].append(curr_latent_mean[0].clone())
+                    episode_latent_logvars[episode_idx].append(curr_latent_logvar[0].clone())
+
+                episode_all_obs[episode_idx].append(state.clone())
+                episode_next_obs[episode_idx].append(state.clone())
+                episode_rewards[episode_idx].append(rew_raw.clone())
+                episode_actions[episode_idx].append(action.clone())
+
+                curr_rollout_rew.append(rew_raw.clone())
+                
 
-                if done:
+                if args.pass_belief_to_policy and (encoder is None):
+                    episode_beliefs[episode_idx].append(belief)
+
+                if infos[0]['done_mdp'] and not done:
+                    start_obs = infos[0]['start_state']
+                    start_obs = torch.from_numpy(start_obs).float().reshape((1, -1)).to(device)
                     break
 
             episode_returns.append(sum(curr_rollout_rew))
+            episode_lengths.append(step_idx)
+
 
-        # Stack episode data
-        episode_prev_obs = [torch.stack(e) for e in episode_prev_obs]
-        episode_next_obs = [torch.stack(e) for e in episode_next_obs]
-        episode_actions = [torch.stack(e) for e in episode_actions]
-        episode_rewards = [torch.stack(e) for e in episode_rewards]
+        # clean up
 
         if encoder is not None:
             episode_latent_means = [torch.stack(e) for e in episode_latent_means]
             episode_latent_logvars = [torch.stack(e) for e in episode_latent_logvars]
 
+        episode_prev_obs = [torch.cat(e) for e in episode_prev_obs]
+        episode_next_obs = [torch.cat(e) for e in episode_next_obs]
+        episode_actions = [torch.cat(e) for e in episode_actions]
+        episode_rewards = [torch.cat(e) for e in episode_rewards]
+
+
         # Plot price and reward trajectories
         import matplotlib.pyplot as plt
         plt.figure(figsize=(10, 3 * num_episodes))
diff --git a/nbs/50_meta_learning/53_environments/01_pricing_env/10_pricing_env.ipynb b/nbs/50_meta_learning/53_environments/01_pricing_env/10_pricing_env.ipynb
@@ -279,21 +279,23 @@
     "        Visualise behaviour in PricingEnv: plots price (action) and revenue (reward) per timestep.\n",
     "        The environment passed to this method should be a vectorised env (DummyVecEnv or SubprocVecEnv).\n",
     "        \"\"\"\n",
-    "        import matplotlib.pyplot as plt\n",
-    "        import torch\n",
-    "        import numpy as np\n",
-    "\n",
-    "        device = torch.device(\"cuda\" if torch.cuda.is_available() else \"cpu\")\n",
     "\n",
     "        num_episodes = args.max_rollouts_per_task\n",
     "        unwrapped_env = env.venv.unwrapped.envs[0]\n",
     "\n",
+    "        episode_all_obs = [[] for _ in range(num_episodes)]\n",
     "        episode_prev_obs = [[] for _ in range(num_episodes)]\n",
     "        episode_next_obs = [[] for _ in range(num_episodes)]\n",
     "        episode_actions = [[] for _ in range(num_episodes)]\n",
     "        episode_rewards = [[] for _ in range(num_episodes)]\n",
     "        episode_returns = []\n",
+    "        episode_lengths = []\n",
     "\n",
+    "        if args.pass_belief_to_policy and (encoder is None):\n",
+    "            episode_beliefs = [[] for _ in range(num_episodes)]\n",
+    "        else:\n",
+    "            episode_beliefs = None\n",
+    "            \n",
     "        if encoder is not None:\n",
     "            episode_latent_samples = [[] for _ in range(num_episodes)]\n",
     "            episode_latent_means = [[] for _ in range(num_episodes)]\n",
@@ -302,70 +304,102 @@
     "            episode_latent_samples = episode_latent_means = episode_latent_logvars = None\n",
     "\n",
     "        env.reset_task()\n",
-    "        state, belief, task = utl.reset_env(env, args)\n",
-    "        start_obs_raw = state.clone()\n",
-    "        task = task.view(-1) if task is not None else None\n",
+    "        [state, belief, task] = utl.reset_env(env, args)\n",
+    "        start_obs = state.clone()\n",
     "\n",
-    "        hidden_state = torch.zeros((1, args.hidden_size), device=device) if hasattr(args, 'hidden_size') else None\n",
+    "        for episode_idx in range(num_episodes):\n",
     "\n",
-    "        for ep_idx in range(num_episodes):\n",
-    "            obs = env.reset()\n",
     "            curr_rollout_rew = []\n",
     "\n",
-    "            if ep_idx == 0 and encoder is not None:\n",
-    "                curr_latent_sample, curr_latent_mean, curr_latent_logvar, hidden_state = encoder.prior(1)\n",
-    "                curr_latent_sample = curr_latent_sample[0].to(device)\n",
-    "                curr_latent_mean = curr_latent_mean[0].to(device)\n",
-    "                curr_latent_logvar = curr_latent_logvar[0].to(device)\n",
+    "            \n",
     "\n",
     "            if encoder is not None:\n",
-    "                episode_latent_samples[ep_idx].append(curr_latent_sample[0].clone())\n",
-    "                episode_latent_means[ep_idx].append(curr_latent_mean[0].clone())\n",
-    "                episode_latent_logvars[ep_idx].append(curr_latent_logvar[0].clone())\n",
-    "\n",
-    "            for t in range(env._max_episode_steps):\n",
-    "                prev_obs = torch.as_tensor(obs, dtype=torch.float32, device=device).unsqueeze(0)\n",
-    "                episode_prev_obs[ep_idx].append(prev_obs.squeeze(0).clone())\n",
-    "\n",
-    "                latent = utl.get_latent_for_policy(args, curr_latent_sample, curr_latent_mean, curr_latent_logvar)\n",
-    "                _, action, _ = policy.act(prev_obs, latent, belief=None, task=task, deterministic=True)\n",
-    "\n",
-    "                obs, reward, done, info = env.step(action.cpu().numpy())\n",
-    "                obs = torch.as_tensor(obs, dtype=torch.float32, device=device).unsqueeze(0)\n",
-    "\n",
-    "                episode_next_obs[ep_idx].append(obs.squeeze(0).clone())\n",
-    "                episode_actions[ep_idx].append(action.squeeze(0).clone())\n",
-    "                episode_rewards[ep_idx].append(torch.tensor(reward, dtype=torch.float32, device=device).clone())\n",
-    "                curr_rollout_rew.append(reward)\n",
+    "                \n",
+    "                if ep_idx == 0 and encoder is not None:\n",
+    "                    # reset to prior\n",
+    "                    curr_latent_sample, curr_latent_mean, curr_latent_logvar, hidden_state = encoder.prior(1)\n",
+    "                    curr_latent_sample = curr_latent_sample[0].to(device)\n",
+    "                    curr_latent_mean = curr_latent_mean[0].to(device)\n",
+    "                    curr_latent_logvar = curr_latent_logvar[0].to(device)\n",
+    "                    \n",
+    "                episode_latent_samples[episode_idx].append(curr_latent_sample[0].clone())\n",
+    "                episode_latent_means[episode_idx].append(curr_latent_mean[0].clone())\n",
+    "                episode_latent_logvars[episode_idx].append(curr_latent_logvar[0].clone())\n",
+    "\n",
+    "            episode_all_obs[episode_idx].append(start_obs.clone())\n",
+    "            if args.pass_belief_to_policy and (encoder is None):\n",
+    "                episode_beliefs[episode_idx].append(belief)\n",
+    "                \n",
+    "            for step_idx in range(env._max_episode_steps):\n",
+    "                \n",
+    "                if step_idx == 1:\n",
+    "                    prev_obs = start_obs.clone()\n",
+    "                else:\n",
+    "                    prev_obs = state.clone()\n",
+    "                    \n",
+    "                episode_prev_obs[episode_idx].append(prev_obs)\n",
+    "                \n",
+    "                                # act\n",
+    "                _, action, _ = utl.select_action(args=args,\n",
+    "                                                 policy=policy,\n",
+    "                                                 state=state.view(-1),\n",
+    "                                                 belief=belief,\n",
+    "                                                 task=task,\n",
+    "                                                 deterministic=True,\n",
+    "                                                 latent_sample=curr_latent_sample.view(-1) if (curr_latent_sample is not None) else None,\n",
+    "                                                 latent_mean=curr_latent_mean.view(-1) if (curr_latent_mean is not None) else None,\n",
+    "                                                 latent_logvar=curr_latent_logvar.view(-1) if (curr_latent_logvar is not None) else None,\n",
+    "                                                 )\n",
+    "                \n",
+    "                # observe reward and next obs\n",
+    "                [state, belief, task], (rew_raw, rew_normalised), done, infos = utl.env_step(env, action, args)\n",
     "\n",
     "                if encoder is not None:\n",
+    "                    # update task embedding\n",
     "                    curr_latent_sample, curr_latent_mean, curr_latent_logvar, hidden_state = encoder(\n",
-    "                        action.reshape(1, -1).float().to(device),\n",
-    "                        obs,\n",
-    "                        torch.tensor([reward], dtype=torch.float32, device=device).unsqueeze(0),\n",
+    "                        action.float().to(device),\n",
+    "                        state,\n",
+    "                        rew_raw.reshape((1, 1)).float().to(device),\n",
     "                        prev_obs,\n",
     "                        hidden_state,\n",
-    "                        return_prior=False,\n",
-    "                    )\n",
-    "                    episode_latent_samples[ep_idx].append(curr_latent_sample[0].clone())\n",
-    "                    episode_latent_means[ep_idx].append(curr_latent_mean[0].clone())\n",
-    "                    episode_latent_logvars[ep_idx].append(curr_latent_logvar[0].clone())\n",
+    "                        return_prior=False)\n",
+    "\n",
+    "                    episode_latent_samples[episode_idx].append(curr_latent_sample[0].clone())\n",
+    "                    episode_latent_means[episode_idx].append(curr_latent_mean[0].clone())\n",
+    "                    episode_latent_logvars[episode_idx].append(curr_latent_logvar[0].clone())\n",
+    "\n",
+    "                episode_all_obs[episode_idx].append(state.clone())\n",
+    "                episode_next_obs[episode_idx].append(state.clone())\n",
+    "                episode_rewards[episode_idx].append(rew_raw.clone())\n",
+    "                episode_actions[episode_idx].append(action.clone())\n",
+    "\n",
+    "                curr_rollout_rew.append(rew_raw.clone())\n",
+    "                \n",
     "\n",
-    "                if done:\n",
+    "                if args.pass_belief_to_policy and (encoder is None):\n",
+    "                    episode_beliefs[episode_idx].append(belief)\n",
+    "\n",
+    "                if infos[0]['done_mdp'] and not done:\n",
+    "                    start_obs = infos[0]['start_state']\n",
+    "                    start_obs = torch.from_numpy(start_obs).float().reshape((1, -1)).to(device)\n",
     "                    break\n",
     "\n",
     "            episode_returns.append(sum(curr_rollout_rew))\n",
+    "            episode_lengths.append(step_idx)\n",
+    "\n",
     "\n",
-    "        # Stack episode data\n",
-    "        episode_prev_obs = [torch.stack(e) for e in episode_prev_obs]\n",
-    "        episode_next_obs = [torch.stack(e) for e in episode_next_obs]\n",
-    "        episode_actions = [torch.stack(e) for e in episode_actions]\n",
-    "        episode_rewards = [torch.stack(e) for e in episode_rewards]\n",
+    "        # clean up\n",
     "\n",
     "        if encoder is not None:\n",
     "            episode_latent_means = [torch.stack(e) for e in episode_latent_means]\n",
     "            episode_latent_logvars = [torch.stack(e) for e in episode_latent_logvars]\n",
     "\n",
+    "        episode_prev_obs = [torch.cat(e) for e in episode_prev_obs]\n",
+    "        episode_next_obs = [torch.cat(e) for e in episode_next_obs]\n",
+    "        episode_actions = [torch.cat(e) for e in episode_actions]\n",
+    "        episode_rewards = [torch.cat(e) for e in episode_rewards]\n",
+    "\n",
+    "\n",
     "        # Plot price and reward trajectories\n",
     "        import matplotlib.pyplot as plt\n",
     "        plt.figure(figsize=(10, 3 * num_episodes))\n",