Fix a typing issue

odelalleau · odelalleau · commit 3297cd111b23 · 2025-07-23T13:30:53.000-04:00
Signed-off-by: Olivier Delalleau &lt;507137+odelalleau@users.noreply.github.com&gt;
diff --git a/nemo_rl/algorithms/loss_functions.py b/nemo_rl/algorithms/loss_functions.py
@@ -568,7 +568,7 @@ def __init__(self, cfg: DPOLossConfig):
 
         self.loss_type = LossType.SEQUENCE_LEVEL
 
-    def _preference_loss(
+    def _dpo_loss(
         self,
         next_token_logits: Tensor,
         data: BatchedDataDict[DPOLossDataDict],
@@ -619,7 +619,7 @@ def _preference_loss(
         if self.preference_average_log_probs:
             rewards = rewards / token_mask.sum(-1).clamp(min=1)
 
-        return super()._preference_loss(
+        return self._preference_loss(
             rewards, sample_mask, global_valid_seqs, self.reference_policy_kl_penalty
         )
 
@@ -661,7 +661,7 @@ def __call__(
             accuracy,
             rewards_chosen_mean,
             rewards_rejected_mean,
-        ) = self._preference_loss(
+        ) = self._dpo_loss(
             next_token_logits,
             data,
             global_valid_seqs,