Fixes gradient propogation through std-dev (#66)

Mayankm96 · web-flow · commit 596e38c98070 · 2025-02-24T17:06:28.000+01:00
diff --git a/rsl_rl/modules/actor_critic.py b/rsl_rl/modules/actor_critic.py
@@ -101,7 +101,8 @@ def entropy(self):
 
     def update_distribution(self, observations):
         mean = self.actor(observations)
-        self.distribution = Normal(mean, mean * 0.0 + self.std)
+        std = self.std.expand_as(mean)
+        self.distribution = Normal(mean, std)
 
     def act(self, observations, **kwargs):
         self.update_distribution(observations)