Adding missing env_layout_seed info to SB3 instincts

levitation · levitation · commit 19126b7bde07 · 2025-08-22T19:13:37.000+03:00
diff --git a/aintelope/agents/a2c_agent.py b/aintelope/agents/a2c_agent.py
@@ -22,6 +22,11 @@
     SB3BaseAgent,
     CustomCNN,
     PolicyWithConfigFactory,
+    INFO_PIPELINE_CYCLE,
+    INFO_EPISODE,
+    INFO_ENV_LAYOUT_SEED,
+    INFO_STEP,
+    INFO_TEST_MODE,
 )
 from aintelope.aintelope_typing import ObservationFloat, PettingZooEnv
 from aintelope.training.dqn_training import Trainer
@@ -95,17 +100,19 @@ def forward(
         distribution = self._get_action_dist_from_latent(latent_pi)
 
         # inserted code
-        step = self.info["step"]
-        episode = self.info["i_episode"]
-        pipeline_cycle = self.info["i_pipeline_cycle"]
-        test_mode = self.info["test_mode"]
+        step = self.info[INFO_STEP]
+        env_layout_seed = self.info[INFO_ENV_LAYOUT_SEED]
+        episode = self.info[INFO_EPISODE]
+        pipeline_cycle = self.info[INFO_PIPELINE_CYCLE]
+        test_mode = self.info[INFO_TEST_MODE]
 
         obs_nps = obs.detach().cpu().numpy()
         obs_np = obs_nps[0, :]
 
         (override_type, _random) = self.expert.should_override(
             deterministic,
             step,
+            env_layout_seed,
             episode,
             pipeline_cycle,
             test_mode,
@@ -116,6 +123,7 @@ def forward(
                 obs_np,
                 self.info,
                 step,
+                env_layout_seed,
                 episode,
                 pipeline_cycle,
                 test_mode,
diff --git a/aintelope/agents/dqn_agent.py b/aintelope/agents/dqn_agent.py
@@ -22,6 +22,11 @@
     SB3BaseAgent,
     CustomCNN,
     PolicyWithConfigFactory,
+    INFO_PIPELINE_CYCLE,
+    INFO_EPISODE,
+    INFO_ENV_LAYOUT_SEED,
+    INFO_STEP,
+    INFO_TEST_MODE,
 )
 from aintelope.aintelope_typing import ObservationFloat, PettingZooEnv
 from aintelope.training.dqn_training import Trainer
@@ -74,17 +79,19 @@ def _predict(self, obs: PyTorchObs, deterministic: bool = True) -> th.Tensor:
         actions = self.q_net._predict(obs, deterministic=deterministic)
 
         # inserted code
-        step = self.info["step"]
-        episode = self.info["i_episode"]
-        pipeline_cycle = self.info["i_pipeline_cycle"]
-        test_mode = self.info["test_mode"]
+        step = self.info[INFO_STEP]
+        env_layout_seed = self.info[INFO_ENV_LAYOUT_SEED]
+        episode = self.info[INFO_EPISODE]
+        pipeline_cycle = self.info[INFO_PIPELINE_CYCLE]
+        test_mode = self.info[INFO_TEST_MODE]
 
         obs_nps = obs.detach().cpu().numpy()
         obs_np = obs_nps[0, :]
 
         (override_type, _random) = self.expert.should_override(
             deterministic,
             step,
+            env_layout_seed,
             episode,
             pipeline_cycle,
             test_mode,
@@ -95,6 +102,7 @@ def _predict(self, obs: PyTorchObs, deterministic: bool = True) -> th.Tensor:
                 obs_np,
                 self.info,
                 step,
+                env_layout_seed,
                 episode,
                 pipeline_cycle,
                 test_mode,
diff --git a/aintelope/agents/ppo_agent.py b/aintelope/agents/ppo_agent.py
@@ -23,6 +23,11 @@
     CustomCNN,
     vec_env_args,
     PolicyWithConfigFactory,
+    INFO_PIPELINE_CYCLE,
+    INFO_EPISODE,
+    INFO_ENV_LAYOUT_SEED,
+    INFO_STEP,
+    INFO_TEST_MODE,
 )
 from aintelope.aintelope_typing import ObservationFloat, PettingZooEnv
 from aintelope.training.dqn_training import Trainer
@@ -95,17 +100,19 @@ def forward(
         distribution = self._get_action_dist_from_latent(latent_pi)
 
         # inserted code
-        step = self.info["step"]
-        episode = self.info["i_episode"]
-        pipeline_cycle = self.info["i_pipeline_cycle"]
-        test_mode = self.info["test_mode"]
+        step = self.info[INFO_STEP]
+        env_layout_seed = self.info[INFO_ENV_LAYOUT_SEED]
+        episode = self.info[INFO_EPISODE]
+        pipeline_cycle = self.info[INFO_PIPELINE_CYCLE]
+        test_mode = self.info[INFO_TEST_MODE]
 
         obs_nps = obs.detach().cpu().numpy()
         obs_np = obs_nps[0, :]
 
         (override_type, _random) = self.expert.should_override(
             deterministic,
             step,
+            env_layout_seed,
             episode,
             pipeline_cycle,
             test_mode,
@@ -116,6 +123,7 @@ def forward(
                 obs_np,
                 self.info,
                 step,
+                env_layout_seed,
                 episode,
                 pipeline_cycle,
                 test_mode,
diff --git a/aintelope/agents/sb3_base_agent.py b/aintelope/agents/sb3_base_agent.py
@@ -46,6 +46,13 @@
 import gymnasium as gym
 from pettingzoo import AECEnv, ParallelEnv
 
+# TODO: implement these infos in savanna_safetygrid.py instead
+INFO_PIPELINE_CYCLE = "pipeline_cycle"
+INFO_EPISODE = "episode"
+INFO_ENV_LAYOUT_SEED = "env_layout_seed"
+INFO_STEP = "step"
+INFO_TEST_MODE = "test_mode"
+
 PettingZooEnv = Union[AECEnv, ParallelEnv]
 Environment = Union[gym.Env, PettingZooEnv]
 
@@ -199,7 +206,6 @@ def sb3_agent_train_thread_entry_point(
 
         model = model_constructor(env_wrapper, env_classname, agent_id, cfg)
         env_wrapper.set_model(model)
-        self.model = model
         model.learn(total_timesteps=num_total_steps, callback=checkpoint_callback)
         env_wrapper.save_or_return_model(model, filename_timestamp_sufix_str)
     except (
@@ -299,10 +305,11 @@ def get_action(
         # action_space = self.env.action_space(self.id)
         self.info = info
 
-        self.info["i_pipeline_cycle"] = pipeline_cycle
-        self.info["i_episode"] = episode
-        self.info["step"] = step
-        self.info["test_mode"] = test_mode
+        self.info[INFO_PIPELINE_CYCLE] = pipeline_cycle
+        self.info[INFO_EPISODE] = episode
+        self.info[INFO_ENV_LAYOUT_SEED] = env_layout_seed
+        self.info[INFO_STEP] = step
+        self.info[INFO_TEST_MODE] = test_mode
 
         self.infos[self.id] = self.info
 
@@ -365,17 +372,21 @@ def env_post_reset_callback(self, states, infos, seed, options, *args, **kwargs)
         i_episode = (
             self.next_episode_no - 1
         )  # cannot use env.get_next_episode_no() here since its counter is reset for each new env_layout_seed
+        env_layout_seed = (
+            self.env.get_env_layout_seed()
+        )  # no need to substract 1 here since env_layout_seed value is overridden in env_pre_reset_callback
         step = 0
         test_mode = False
 
         for (
             agent,
             info,
         ) in infos.items():  # TODO: move this code to savanna_safetygrid.py
-            info["i_pipeline_cycle"] = i_pipeline_cycle
-            info["i_episode"] = i_episode
-            info["step"] = 0
-            info["test_mode"] = test_mode
+            info[INFO_PIPELINE_CYCLE] = i_pipeline_cycle
+            info[INFO_EPISODE] = i_episode
+            info[INFO_ENV_LAYOUT_SEED] = env_layout_seed
+            info[INFO_STEP] = 0
+            info[INFO_TEST_MODE] = test_mode
 
         if self.model:
             if hasattr(self.model.policy, "my_reset"):
@@ -436,10 +447,11 @@ def parallel_env_post_step_callback(
             done = terminateds[agent] or truncateds[agent]
 
             # TODO: move this code to savanna_safetygrid.py
-            info["i_pipeline_cycle"] = i_pipeline_cycle
-            info["i_episode"] = i_episode
-            info["step"] = step
-            info["test_mode"] = test_mode
+            info[INFO_PIPELINE_CYCLE] = i_pipeline_cycle
+            info[INFO_EPISODE] = i_episode
+            info[INFO_ENV_LAYOUT_SEED] = env_layout_seed
+            info[INFO_STEP] = step
+            info[INFO_TEST_MODE] = test_mode
 
             agent_step_info = [
                 agent,
@@ -541,10 +553,11 @@ def sequential_env_post_step_callback(
         test_mode = False
 
         # TODO: move this code to savanna_safetygrid.py
-        self.info["i_pipeline_cycle"] = i_pipeline_cycle
-        self.info["i_episode"] = i_episode
-        self.info["step"] = step
-        self.info["test_mode"] = test_mode
+        self.info[INFO_PIPELINE_CYCLE] = i_pipeline_cycle
+        self.info[INFO_EPISODE] = i_episode
+        self.info[INFO_ENV_LAYOUT_SEED] = env_layout_seed
+        self.info[INFO_STEP] = step
+        self.info[INFO_TEST_MODE] = test_mode
 
         self.infos[self.id] = self.info
 
diff --git a/aintelope/agents/sb3_instincts.py b/aintelope/agents/sb3_instincts.py
@@ -101,6 +101,7 @@ def should_override(
         self,
         deterministic: bool = False,  # This is set only during evaluation, not training and the meaning is that the agent is greedy - it takes the best action. It does NOT mean that the action is always same.
         step: int = 0,
+        env_layout_seed: int = 0,
         episode: int = 0,
         pipeline_cycle: int = 0,
         test_mode: bool = False,
@@ -198,6 +199,7 @@ def get_action(
         observation=None,
         info: dict = {},
         step: int = 0,
+        env_layout_seed: int = 0,
         episode: int = 0,
         pipeline_cycle: int = 0,
         test_mode: bool = False,