[bugfix] grpo length context compatible with latest set_default_max_tokens (#5154)

hjh0119 · gemini-code-assist[bot] · Jintao-Huang · commit c7baf18c9317 · 2025-07-31T15:36:33.000+08:00
* compatible with latest set_default_max_tokens

* Update swift/trainers/rlhf_trainer/grpo_trainer.py

Co-authored-by: gemini-code-assist[bot] &lt;176961590+gemini-code-assist[bot]@users.noreply.github.com&gt;

---------

Co-authored-by: gemini-code-assist[bot] &lt;176961590+gemini-code-assist[bot]@users.noreply.github.com&gt;
diff --git a/swift/trainers/rlhf_trainer/grpo_trainer.py b/swift/trainers/rlhf_trainer/grpo_trainer.py
@@ -1504,12 +1504,11 @@ def multi_turn_completion_length_context(self):
         original_fn = self.engine.set_default_max_tokens
         original_max_len = self.engine.max_model_len
 
-        def set_default_max_tokens(_self, request_config: RequestConfig, inputs: InputsType) -> None:
+        def set_default_max_tokens(_self, request_config: RequestConfig, inputs: Dict[str, Any]) -> None:
             # Calculate required context window
             original_max_len = _self.max_model_len or 8192
-            if isinstance(inputs, dict):
-                inputs = [inputs]
-            prompt_tokens = max(_self._get_num_tokens(inp) for inp in inputs)
+            assert isinstance(inputs, dict)
+            prompt_tokens = _self._get_num_tokens(inputs)
 
             if not hasattr(_self, 'set_grpo_max_model_len'):
                 # set max model len in first round