fix dapo dynamic sampling (#3846)

Evilxya · web-flow · commit cc1ece3f1b27 · 2025-04-12T17:49:43.000+08:00
diff --git a/swift/trainers/rlhf_trainer/grpo_trainer.py b/swift/trainers/rlhf_trainer/grpo_trainer.py
@@ -885,9 +885,6 @@ def _dynamic_sampling(self, inputs, rewards, rewards_per_func, completions):
             grouped_rewards = rewards.view(-1, self.num_generations)
             group_std = grouped_rewards.std(dim=1)
 
-            if (group_std > 0).all():
-                break
-
             valid_mask = (group_std > 0).repeat_interleave(self.num_generations)
             all_inputs = gather_object(inputs)
             valid_samples.extend([inp for inp, mask in zip(all_inputs, valid_mask) if mask])