meta-pytorch · DNXie · Sep 29, 2025 · Sep 24, 2025 · Sep 24, 2025 · Sep 24, 2025
diff --git a/apps/grpo/main.py b/apps/grpo/main.py
@@ -259,17 +259,17 @@ async def main(cfg: DictConfig):
         ref_model,
         reward_actor,
     ) = await asyncio.gather(
-        DatasetActor.options(**cfg.services.dataset).as_service(**cfg.dataset),
+        DatasetActor.options(**cfg.actors.dataset).as_actor(**cfg.dataset),
         Policy.options(**cfg.services.policy).as_service(**cfg.policy),
-        RLTrainer.options(**cfg.services.trainer).as_service(
+        RLTrainer.options(**cfg.actors.trainer).as_actor(
             **cfg.trainer, loss=simple_grpo_loss
         ),
-        ReplayBuffer.options(**cfg.services.replay_buffer).as_service(
+        ReplayBuffer.options(**cfg.actors.replay_buffer).as_actor(
             **cfg.replay_buffer, collate=collate
         ),
-        ComputeAdvantages.options(**cfg.services.compute_advantages).as_service(),
-        ReferenceModel.options(**cfg.services.ref_model).as_service(**cfg.ref_model),
-        RewardActor.options(**cfg.services.reward_actor).as_service(
+        ComputeAdvantages.options(**cfg.actors.compute_advantages).as_actor(),
+        ReferenceModel.options(**cfg.actors.ref_model).as_actor(**cfg.ref_model),
+        RewardActor.options(**cfg.actors.reward_actor).as_actor(
             reward_functions=[MathReward(), ThinkingReward()]
         ),
     )

diff --git a/apps/grpo/qwen3_1_7b.yaml b/apps/grpo/qwen3_1_7b.yaml
@@ -100,31 +100,27 @@ ref_model:
 
 # All resource allocations
 services:
-  dataset:
-    procs: 1
-    num_replicas: 1
-    with_gpus: false
   policy:
     procs: ${policy.engine_config.tensor_parallel_size}
     num_replicas: 1
     with_gpus: true
+
+actors:
+  dataset:
+    procs: 1
+    with_gpus: false
   trainer:
     procs: 1
-    num_replicas: 1
     with_gpus: true
   replay_buffer:
     procs: 1
-    num_replicas: 1
     with_gpus: false
   ref_model:
     procs: 1
-    num_replicas: 1
     with_gpus: true
   compute_advantages:
     procs: 1
-    num_replicas: 1
     with_gpus: false
   reward_actor:
     procs: 1
-    num_replicas: 1
     with_gpus: false
diff --git a/apps/grpo/qwen3_8b.yaml b/apps/grpo/qwen3_8b.yaml
@@ -101,31 +101,27 @@ ref_model:
 
 # All resource allocations
 services:
-  dataset:
-    procs: 1
-    num_replicas: 1
-    with_gpus: false
   policy:
     procs: ${policy.engine_config.tensor_parallel_size}
     num_replicas: 1
     with_gpus: true
+
+actors:
+  dataset:
+    procs: 1
+    with_gpus: false
   trainer:
     procs: 2
-    num_replicas: 1
     with_gpus: true
   replay_buffer:
     procs: 1
-    num_replicas: 1
     with_gpus: false
   ref_model:
     procs: 1
-    num_replicas: 1
     with_gpus: true
   compute_advantages:
     procs: 1
-    num_replicas: 1
     with_gpus: false
   reward_actor:
     procs: 1
-    num_replicas: 1
     with_gpus: false
diff --git a/apps/grpo/qwen3_multinode.yaml b/apps/grpo/qwen3_multinode.yaml
@@ -46,33 +46,29 @@ ref_model:
   model_name: ${model}
 
 services:
-  dataset:
-    procs: 1
-    num_replicas: 1
-    with_gpus: false
   policy:
     procs: 1
     hosts: 1
     num_replicas: 1
     with_gpus: true
+
+actors:
+  dataset:
+    procs: 1
+    with_gpus: false
   trainer:
     procs: 1
     hosts: 1
-    num_replicas: 1
     with_gpus: true
   replay_buffer:
     procs: 1
-    num_replicas: 1
     with_gpus: false
   compute_advantages:
     procs: 1
-    num_replicas: 1
     with_gpus: false
   ref_model:
     procs: 1
-    num_replicas: 1
     with_gpus: true
   reward_actor:
     procs: 1
-    num_replicas: 1
     with_gpus: false
diff --git a/apps/rl/__init__.py b/apps/rl/__init__.py
diff --git a/apps/rl/llama3_8b.yaml b/apps/rl/llama3_8b.yaml
diff --git a/apps/rl/main.py b/apps/rl/main.py