HorizonRobotics · QuantuMope · May 12, 2025 · May 12, 2025 · May 13, 2025 · hnyu
diff --git a/alf/algorithms/sac_algorithm.py b/alf/algorithms/sac_algorithm.py
@@ -27,13 +27,13 @@
 from alf.algorithms.config import TrainerConfig
 from alf.algorithms.off_policy_algorithm import OffPolicyAlgorithm
 from alf.algorithms.one_step_loss import OneStepTDLoss
-from alf.algorithms.rl_algorithm import RLAlgorithm
-from alf.data_structures import TimeStep, Experience, LossInfo, namedtuple
+from alf.data_structures import TimeStep, LossInfo, namedtuple, \
+    BasicRolloutInfo
 from alf.data_structures import AlgStep, StepType
 from alf.nest import nest
 import alf.nest.utils as nest_utils
 from alf.networks import ActorDistributionNetwork, CriticNetwork
-from alf.networks import QNetwork, QRNNNetwork
+from alf.networks import QNetwork
 from alf.tensor_specs import TensorSpec, BoundedTensorSpec
 from alf.utils import losses, common, dist_utils, math_ops
 from alf.utils.normalizers import ScalarAdaptiveNormalizer
@@ -847,6 +847,10 @@ def _select_q_value(self, action, q_values):
     def _critic_train_step(self, observation, target_observation,
                            state: SacCriticState, rollout_info: SacInfo,
                            action, action_distribution):
+
+        if isinstance(rollout_info, BasicRolloutInfo):
+            rollout_info = rollout_info.rl
+
         critics, critics_state = self._compute_critics(
             self._critic_networks,
             observation,