vLLM 0.8.3 support for GRPO colocate mode (#3820)

hjh0119 · web-flow · commit 6656887ee8a4 · 2025-04-10T14:30:36.000+08:00
* should work

* tp&gt;1

* seed=0

---------

Co-authored-by: hjh &lt;hujinghan.hjh@alibaba-inc.com&gt;
diff --git a/swift/trainers/rlhf_trainer/grpo_trainer.py b/swift/trainers/rlhf_trainer/grpo_trainer.py
@@ -412,13 +412,17 @@ def prepare_vllm(self, model, fast_infer_device):
         from swift.llm import VllmEngine
         from swift.llm.infer.infer_engine import GRPOVllmEngine
         _, _, _, local_world_size = get_dist_setting()
+        if self.args.tensor_parallel_size > 1:
+            vllm_kwargs = {'distributed_executor_backend': 'external_launcher'}
+        else:
+            vllm_kwargs = {}
         if local_world_size == self.args.num_infer_workers == get_device_count() and local_world_size > 1:
             # Compatibility with TP
             cls = GRPOVllmEngine
-            vllm_kwargs = {'distributed_executor_backend': 'external_launcher'}
+            engine_kwargs = {'seed': 0}
         else:
             cls = VllmEngine
-            vllm_kwargs = {}
+            engine_kwargs = {}
         with Swift.grpo_context(model, self.template.processor):
             self.engine = cls(
                 model.model_dir,
@@ -435,6 +439,7 @@ def prepare_vllm(self, model, fast_infer_device):
                 enable_sleep_mode=self.args.sleep_level > 0,
                 use_async_engine=False,
                 max_model_len=self.args.vllm_max_model_len,
+                engine_kwargs=engine_kwargs,
                 **vllm_kwargs)
             self.engine.default_template = self.template