Fixed textual output of example scripts

boris-il-forte · boris-il-forte · commit b2fab67b17a5 · 2025-02-05T18:43:08.000+01:00
diff --git a/examples/habitat/habitat_rearrange_sac.py b/examples/habitat/habitat_rearrange_sac.py
@@ -150,7 +150,7 @@ def experiment(alg, n_epochs, n_steps, n_episodes_test):
 
     J = np.mean(dataset.discounted_return)
     R = np.mean(dataset.undiscounted_return)
-    E = agent.policy.entropy(dataset.state)
+    E = agent.policy.entropy(dataset.state).item()
 
     logger.epoch_info(0, J=J, R=R, entropy=E)
 
@@ -162,7 +162,7 @@ def experiment(alg, n_epochs, n_steps, n_episodes_test):
 
         J = np.mean(dataset.discounted_return)
         R = np.mean(dataset.undiscounted_return)
-        E = agent.policy.entropy(dataset.state)
+        E = agent.policy.entropy(dataset.state).item()
 
         logger.epoch_info(n+1, J=J, R=R, entropy=E)
 
diff --git a/examples/isaac_example.py b/examples/isaac_example.py
@@ -81,7 +81,7 @@ def experiment(cfg_dict, headless, alg, n_epochs, n_steps, n_steps_per_fit, n_ep
 
     J = torch.mean(dataset.discounted_return)
     R = torch.mean(dataset.undiscounted_return)
-    E = agent.policy.entropy()
+    E = agent.policy.entropy().item()
 
     logger.epoch_info(0, J=J, R=R, entropy=E)
 
@@ -91,7 +91,7 @@ def experiment(cfg_dict, headless, alg, n_epochs, n_steps, n_steps_per_fit, n_ep
 
         J = torch.mean(dataset.discounted_return)
         R = torch.mean(dataset.undiscounted_return)
-        E = agent.policy.entropy()
+        E = agent.policy.entropy().item()
 
         logger.epoch_info(it+1, J=J, R=R, entropy=E)
 
diff --git a/examples/mujoco_locomotion_ppo.py b/examples/mujoco_locomotion_ppo.py
@@ -97,7 +97,7 @@ def experiment(env, n_epochs, n_steps, n_episodes_test):
 
     J = np.mean(dataset.discounted_return)
     R = np.mean(dataset.undiscounted_return)
-    E = agent.policy.entropy()
+    E = agent.policy.entropy().item()
 
     logger.epoch_info(0, J=J, R=R, entropy=E)
 
@@ -107,7 +107,7 @@ def experiment(env, n_epochs, n_steps, n_episodes_test):
 
         J = np.mean(dataset.discounted_return)
         R = np.mean(dataset.undiscounted_return)
-        E = agent.policy.entropy()
+        E = agent.policy.entropy().item()
 
         logger.epoch_info(it + 1, J=J, R=R, entropy=E)
 
diff --git a/examples/pendulum_a2c.py b/examples/pendulum_a2c.py
@@ -73,7 +73,7 @@ def experiment(alg, env_id, horizon, gamma, n_epochs, n_steps, n_steps_per_fit,
 
     J = np.mean(dataset.discounted_return)
     R = np.mean(dataset.undiscounted_return)
-    E = agent.policy.entropy()
+    E = agent.policy.entropy().item()
 
     logger.epoch_info(0, J=J, R=R, entropy=E)
 
@@ -83,7 +83,7 @@ def experiment(alg, env_id, horizon, gamma, n_epochs, n_steps, n_steps_per_fit,
 
         J = np.mean(dataset.discounted_return)
         R = np.mean(dataset.undiscounted_return)
-        E = agent.policy.entropy()
+        E = agent.policy.entropy().item()
 
         logger.epoch_info(it+1, J=J, R=R, entropy=E)
 
diff --git a/examples/pendulum_sac.py b/examples/pendulum_sac.py
@@ -127,7 +127,7 @@ def experiment(alg, n_epochs, n_steps, n_steps_test, save, load):
 
     J = np.mean(dataset.discounted_return)
     R = np.mean(dataset.undiscounted_return)
-    E = agent.policy.entropy(dataset.state)
+    E = agent.policy.entropy(dataset.state).item()
 
     logger.epoch_info(0, J=J, R=R, entropy=E)
 
@@ -139,7 +139,7 @@ def experiment(alg, n_epochs, n_steps, n_steps_test, save, load):
 
         J = np.mean(dataset.discounted_return)
         R = np.mean(dataset.undiscounted_return)
-        E = agent.policy.entropy(dataset.state)
+        E = agent.policy.entropy(dataset.state).item()
 
         logger.epoch_info(n+1, J=J, R=R, entropy=E)
 
diff --git a/examples/pendulum_trust_region.py b/examples/pendulum_trust_region.py
@@ -70,7 +70,7 @@ def experiment(alg, env_id, horizon, gamma, n_epochs, n_steps, n_steps_per_fit,
 
     J = np.mean(dataset.discounted_return)
     R = np.mean(dataset.undiscounted_return)
-    E = agent.policy.entropy()
+    E = agent.policy.entropy().item()
 
     logger.epoch_info(0, J=J, R=R, entropy=E)
 
@@ -80,7 +80,7 @@ def experiment(alg, env_id, horizon, gamma, n_epochs, n_steps, n_steps_per_fit,
 
         J = np.mean(dataset.discounted_return)
         R = np.mean(dataset.undiscounted_return)
-        E = agent.policy.entropy()
+        E = agent.policy.entropy().item()
 
         logger.epoch_info(it+1, J=J, R=R, entropy=E)
 
diff --git a/examples/vectorized_core/pendulum_trust_region.py b/examples/vectorized_core/pendulum_trust_region.py
@@ -73,7 +73,7 @@ def experiment(alg, env_id, horizon, gamma, n_epochs, n_steps, n_steps_per_fit,
 
     J = np.mean(dataset.discounted_return)
     R = np.mean(dataset.undiscounted_return)
-    E = agent.policy.entropy()
+    E = agent.policy.entropy().item()
 
     logger.epoch_info(0, J=J, R=R, entropy=E)
 
@@ -83,7 +83,7 @@ def experiment(alg, env_id, horizon, gamma, n_epochs, n_steps, n_steps_per_fit,
 
         J = np.mean(dataset.discounted_return)
         R = np.mean(dataset.undiscounted_return)
-        E = agent.policy.entropy()
+        E = agent.policy.entropy().item()
 
         logger.epoch_info(it+1, J=J, R=R, entropy=E)