DLR-RM · araffin · Apr 11, 2023 · Jan 18, 2023 · Apr 3, 2023 · Apr 9, 2023
diff --git a/stable_baselines3/common/evaluation.py b/stable_baselines3/common/evaluation.py
@@ -86,7 +86,7 @@ def evaluate_policy(
     episode_starts = np.ones((env.num_envs,), dtype=bool)
     while (episode_counts < episode_count_targets).any():
         actions, states = model.predict(observations, state=states, episode_start=episode_starts, deterministic=deterministic)
-        observations, rewards, dones, infos = env.step(actions)
+        new_observations, rewards, dones, infos = env.step(actions)
         current_rewards += rewards
         current_lengths += 1
         for i in range(n_envs):
@@ -100,6 +100,7 @@ def evaluate_policy(
 
                 if callback is not None:
                     callback(locals(), globals())
+                observations = new_observations
 
                 if dones[i]:
                     if is_monitor_wrapped: