fix grpo multi turn tp (#3837)

hjh0119 · web-flow · commit 58abf6615ed5 · 2025-04-11T13:45:24.000+08:00
Co-authored-by: hjh &lt;hujinghan.hjh@alibaba-inc.com&gt;
diff --git a/swift/trainers/rlhf_trainer/grpo_trainer.py b/swift/trainers/rlhf_trainer/grpo_trainer.py
@@ -762,7 +762,7 @@ def _fast_infer(self, inputs: InputsType) -> Tuple[InputsType, OutputsType]:
             outputs = []
         outputs = gather_object(outputs)
         if self.args.tensor_parallel_size > 1:
-            outputs = [item for output in outputs for item in output]
+            outputs = [[item] for output in outputs for item in output]
         outputs = self.reorder_outputs(outputs, distributed_idx)
         if self.args.sleep_level > 0 and self.infer_rank >= 0:
             self.engine.engine.sleep(level=self.args.sleep_level)