[grpo] fix apply template to tool call dataset (#5471)

hjh0119 · web-flow · commit fa3d2d6330b0 · 2025-08-20T23:42:31.000+08:00
* fix apply template

* use safe_decode
diff --git a/swift/trainers/rlhf_trainer/grpo_trainer.py b/swift/trainers/rlhf_trainer/grpo_trainer.py
@@ -1230,21 +1230,8 @@ def _apply_chat_template_to_messages_list(self, messages_list: InputsType):
         for messages in messages_list:
             InferRequest.remove_response(messages)
             template_inputs, _ = StdTemplateInputs.from_dict({'messages': messages})
-            res_context_list, _, _ = self.template._swift_encode(template_inputs)
-
-            # check the type and convert
-            processed_context = []
-            for context in res_context_list:
-                if isinstance(context, str):
-                    processed_context.append(context)
-                elif isinstance(context, list) and all(isinstance(x, int) for x in context):
-                    # decode the token ID to text
-                    decoded_text = self.template.tokenizer.decode(context)
-                    processed_context.append(decoded_text)
-                else:
-                    # other type value ,just add to process_context
-                    processed_context.append(str(context))
-            prompts_text.append(''.join(processed_context))
+            res = self.template.encode(template_inputs)
+            prompts_text.append(self.template.safe_decode(res['input_ids']))
         return prompts_text
 
     @patch_profiling_decorator