[seq_parallel] fix sp compute_acc (#4456)

Jintao-Huang · web-flow · commit 3478bdbd858f · 2025-06-03T21:06:08.000+08:00
diff --git a/swift/trainers/rlhf_trainer/grpo_trainer.py b/swift/trainers/rlhf_trainer/grpo_trainer.py
@@ -266,6 +266,7 @@ def __init__(self,
         self.model_accepts_loss_kwargs = False
         self.padding_free = self.template.padding_free
         self.template.padding_free = False
+        self.template._packing = False
         for i, reward_func in enumerate(self.reward_funcs):
             if isinstance(reward_func, PreTrainedModel):
                 if self.is_deepspeed_enabled:
diff --git a/swift/trainers/sequence_parallel/ulysses.py b/swift/trainers/sequence_parallel/ulysses.py
@@ -845,7 +845,7 @@ def rlhf_loss_scale_sp_func(_, *args, **kwargs):
         compute_acc_origin = metric.compute_acc
 
         def compute_acc(preds, labels, *args, **kwargs) -> Dict[str, List[float]]:
-
+            _, _, labels, _, _, _ = self.pad_and_split_inputs(None, None, labels, None, None, None)
             # Gather preds and labels across the sp group
             if isinstance(preds, np.ndarray):
                 preds = torch.from_numpy(preds).to(get_current_device())