meta-pytorch · DNXie · Sep 9, 2025 · Aug 21, 2025 · Aug 22, 2025 · Aug 25, 2025
diff --git a/apps/grpo/main.py b/apps/grpo/main.py
@@ -13,7 +13,7 @@
 import torch
 import torch.nn.functional as F
 from datasets import load_dataset
-from forge.actors.policy import Policy, PolicyConfig, SamplingOverrides, WorkerConfig
+from forge.actors.policy import EngineConfig, Policy, SamplingConfig
 from forge.actors.replay_buffer import ReplayBuffer
 from forge.controller.actor import ForgeActor
 from forge.controller.service import ServiceConfig, shutdown_service, spawn_service
@@ -362,12 +362,8 @@ async def main():
         spawn_service(
             ServiceConfig(procs_per_replica=1, with_gpus=True, num_replicas=1),
             Policy,
-            config=PolicyConfig(
-                worker_params=WorkerConfig(model=model),
-                sampling_params=SamplingOverrides(
-                    n=group_size, max_tokens=max_res_tokens
-                ),
-            ),
+            engine_config=EngineConfig(model=model),
+            sampling_config=SamplingConfig(n=group_size, max_tokens=max_res_tokens),
         ),
         spawn_service(
             ServiceConfig(procs_per_replica=1, with_gpus=True, num_replicas=1),

diff --git a/apps/vllm/llama3_8b.yaml b/apps/vllm/llama3_8b.yaml
@@ -0,0 +1,19 @@
+policy:
+  engine_config:
+    model: "meta-llama/Llama-3.1-8B-Instruct"
+    tensor_parallel_size: 2
+    pipeline_parallel_size: 1
+    enforce_eager: true
+  sampling_config:
+    n: 2
+    guided_decoding: false
+    max_tokens: 512
+  available_devices: null
+  service:
+    procs_per_replica: 2
+    num_replicas: 1
+    with_gpus: true
+
+
+# Optional, otherwise argparse fallback kicks in
+prompt: "Tell me a joke"
diff --git a/apps/vllm/main.py b/apps/vllm/main.py
@@ -6,95 +6,32 @@
 
 """To run:
 export HF_HUB_DISABLE_XET=1
-python -m apps.vllm.main --guided-decoding --num-samples 3
-
+python -m apps.vllm.main --config apps/vllm/llama3_8b.yaml
 """
 
-import argparse
 import asyncio
-from argparse import Namespace
+import sys
 
-from forge.actors.policy import Policy, PolicyConfig, SamplingOverrides, WorkerConfig
+from forge.actors.policy import Policy
+from forge.cli.config import parse
 from forge.controller.service import ServiceConfig, shutdown_service, spawn_service
-from vllm.outputs import RequestOutput
-from vllm.transformers_utils.tokenizer import get_tokenizer
-
-
-async def main():
-    """Main application for running vLLM policy inference."""
-    args = parse_args()
 
-    # Create configuration objects
-    policy_config, service_config = get_configs(args)
-
-    # Resolve the Prompts
-    if args.prompt is None:
-        prompt = "What is 3+5?" if args.guided_decoding else "Tell me a joke"
-    else:
-        prompt = args.prompt
-
-    # format prompt
-    tokenizer = get_tokenizer(policy_config.worker_params.model)
-    messages = [{"role": "user", "content": prompt}]
-    prompt = tokenizer.apply_chat_template(
-        messages, tokenize=False, add_generation_prompt=True
-    )
-
-    # Run the policy
-    await run_vllm(service_config, policy_config, prompt)
-
-
-def parse_args() -> Namespace:
-    parser = argparse.ArgumentParser(description="VLLM Policy Inference Application")
-    parser.add_argument(
-        "--model",
-        type=str,
-        default="Qwen/Qwen3-1.7B",  # "meta-llama/Llama-3.1-8B-Instruct",
-        help="Model to use",
-    )
-    parser.add_argument(
-        "--num-samples", type=int, default=2, help="Number of samples to generate"
-    )
-    parser.add_argument(
-        "--guided-decoding", action="store_true", help="Enable guided decoding"
-    )
-    parser.add_argument(
-        "--prompt", type=str, default=None, help="Custom prompt to use for generation"
-    )
-    return parser.parse_args()
+from omegaconf import DictConfig
+from vllm.outputs import RequestOutput
 
 
-def get_configs(args: Namespace) -> (PolicyConfig, ServiceConfig):
+async def run(cfg: DictConfig):
 
-    worker_size = 2
-    worker_params = WorkerConfig(
-        model=args.model,
-        tensor_parallel_size=worker_size,
-        pipeline_parallel_size=1,
-        enforce_eager=True,
-        vllm_args=None,
-    )
+    if (prompt := cfg.get("prompt")) is None:
+        gd = cfg.policy.get("sampling_config", {}).get("guided_decoding", False)
+        prompt = "What is 3+5?" if gd else "Tell me a joke"
 
-    sampling_params = SamplingOverrides(
-        n=args.num_samples,
-        guided_decoding=args.guided_decoding,
-        max_tokens=16,
-    )
+    print("Spawning service...")
 
-    policy_config = PolicyConfig(
-        worker_params=worker_params, sampling_params=sampling_params
-    )
-    service_config = ServiceConfig(
-        procs_per_replica=worker_size, num_replicas=1, with_gpus=True
+    policy = await spawn_service(
+        ServiceConfig(**cfg.policy.service), Policy, **cfg.policy
     )
 
-    return policy_config, service_config
-
-
-async def run_vllm(service_config: ServiceConfig, config: PolicyConfig, prompt: str):
-    print("Spawning service...")
-    policy = await spawn_service(service_config, Policy, config=config)
-
     async with policy.session():
         print("Requesting generation...")
         response_output: RequestOutput = await policy.generate.choose(prompt=prompt)
@@ -112,5 +49,10 @@ async def run_vllm(service_config: ServiceConfig, config: PolicyConfig, prompt:
     await shutdown_service(policy)
 
 
+@parse
+def recipe_main(cfg: DictConfig) -> None:
+    asyncio.run(run(cfg))
+
+
 if __name__ == "__main__":
-    asyncio.run(main())
+    sys.exit(recipe_main())
diff --git a/src/forge/actors/policy.py b/src/forge/actors/policy.py
@@ -8,8 +8,9 @@
 import logging
 import os
 import sys
+from collections.abc import Mapping
 from copy import copy
-from dataclasses import asdict, dataclass, field
+from dataclasses import asdict, dataclass, field, fields
 from typing import Dict, List
 
 import torch
@@ -48,7 +49,7 @@
 
 
 @dataclass
-class SamplingOverrides:
+class SamplingConfig:
     """
     Overrides for vLLMs sampling params.
 
@@ -62,7 +63,7 @@ class SamplingOverrides:
         max_tokens: Maximum number of tokens to generate.
     """
 
-    n: int
+    n: int = 1
     guided_decoding: bool = False
     max_tokens: int = 512
 
@@ -72,37 +73,39 @@ def __post_init__(self):
             gd_params = GuidedDecodingParams(choice=["Positive", "Negative"])
         self.guided_decoding = gd_params
 
+    @classmethod
+    def from_dict(cls, d: Mapping):
+        d = dict(d)
+        all_fields = set(cls.__dataclass_fields__.keys())
+        valid_args = {k: v for k, v in d.items() if k in all_fields}
+        return cls(**valid_args)
+
 
 @dataclass
-class WorkerConfig:
+class EngineConfig(EngineArgs):
     """
-    Config args used for setting up the policy worker.
-
-    Args:
-        model: Model name.
-        tensor_parallel_size: Number of tensor parallel workers.
-        pipeline_parallel_size: Number of pipeline parallel workers.
-        enforce_eager: Whether to enforce eager mode.
-        vllm_args: vLLM engine args.
+    EngineConfig extends EngineArgs with worker-specific fields.
+    Overlapping keys in input dict will override EngineArgs defaults.
-    EngineConfig extends EngineArgs with worker-specific fields.
-    Overlapping keys in input dict will override EngineArgs defaults.
+    EngineConfig extends EngineArgs surfacing worker-specific fields.
+    Args of this class override EngineArgs defaults.
-    EngineConfig extends EngineArgs with worker-specific fields.
-    Overlapping keys in input dict will override EngineArgs defaults.
+    EngineConfig extends EngineArgs surfacing worker-specific fields.
+    Args of this class override EngineArgs defaults.
     """
 
-    model: str
+    model: str = "meta-llama/Llama-3.1-8B-Instruct"
     tensor_parallel_size: int = 1
     pipeline_parallel_size: int = 1
     enforce_eager: bool = False
-    vllm_args: EngineArgs = None
-
 
-@dataclass
-class PolicyConfig:
-    worker_params: WorkerConfig
-    sampling_params: SamplingOverrides
-    available_devices: str = None
+    @classmethod
+    def from_dict(cls, d: Mapping):
+        d = dict(d)
+        all_fields = [f.name for f in fields(cls)]
+        valid_args = {k: v for k, v in d.items() if k in all_fields}
+        return cls(**valid_args)
 
 
 @dataclass
 class Policy(PolicyInterface):
-    config: PolicyConfig
+    engine_config: EngineConfig | Mapping = field(default_factory=EngineConfig)
+    sampling_config: SamplingConfig | Mapping = field(default_factory=SamplingConfig)
+    available_devices: str | None = None
     # Gets set up by setup
     sampling_params: SamplingParams | None = None
     lora_request: LoRARequest | None = None
@@ -115,13 +118,19 @@ def __post_init__(self):
         self._policy_proc: ProcMesh | None = None
         self._worker_procs: ProcMesh | None = None
         self.weights_version: int = 0
+        if isinstance(self.engine_config, Mapping):
+            self.engine_config = EngineConfig.from_dict(self.engine_config)
+        if isinstance(self.sampling_config, Mapping):
+            self.sampling_config = SamplingConfig.from_dict(self.sampling_config)
 
     @classmethod
     async def launch(  # pyright: ignore[reportIncompatibleMethodOverride]
         cls: type["Policy"],
         *,
         process_config: ProcessConfig,
-        config: PolicyConfig,
+        engine_config: EngineConfig | Mapping = EngineConfig(),
+        sampling_config: SamplingConfig | Mapping = SamplingConfig(),
+        available_devices: str | None = None,
         store: MultiProcessStore | None = None,
         **kwargs,
     ) -> "Policy":
@@ -135,16 +144,25 @@ async def launch(  # pyright: ignore[reportIncompatibleMethodOverride]
         policy_proc_config.with_gpus = False
 
         policy_proc = await get_proc_mesh(process_config=policy_proc_config)
+
+        if isinstance(engine_config, Mapping):
+            engine_config = EngineConfig.from_dict(engine_config)
+
+        if isinstance(engine_config, Mapping):
+            sampling_config = SamplingConfig(**sampling_config)
+
         workers = await worker_procs.spawn(
-            "vllm_worker", PolicyWorker, **asdict(config.worker_params)
+            "vllm_worker", PolicyWorker, vllm_args=engine_config
         )
 
         # TODO - expand support so name can stick within kwargs
         actor_name = kwargs.pop("name", cls.__name__)
         policy = await policy_proc.spawn(
             actor_name,
             cls,
-            config=config,
+            engine_config=engine_config,
+            sampling_config=sampling_config,
+            available_devices=available_devices,
             policy_worker=workers,
             store=store,
         )
@@ -182,7 +200,7 @@ async def setup(self):
 
         # Setup sampling params
         self.sampling_params = get_default_sampling_params(
-            self.vllm_args, overrides=asdict(self.config.sampling_params)
+            self.vllm_args, overrides=asdict(self.sampling_config)
         )
 
         # Setup processors
@@ -348,11 +366,7 @@ async def stop(self):
 
 @dataclass
 class PolicyWorker(ForgeActor):
-    model: str
-    tensor_parallel_size: int = 1
-    pipeline_parallel_size: int = 1
-    enforce_eager: bool = False
-    vllm_args: EngineArgs = None
+    vllm_args: EngineConfig | Mapping = EngineConfig()
     state_dict_key: str = "model_state_dict"
 
     def __post_init__(self):
@@ -368,31 +382,11 @@ def __post_init__(self):
         - all LLM generate methods, verify against LLM inputs
         - all executor methods verify no changes
         """
-        if self.vllm_args is None:
-            # Use default vllm EngineArgs
-            self.vllm_args = EngineArgs(
-                model=self.model,
-                tensor_parallel_size=self.tensor_parallel_size,
-                pipeline_parallel_size=self.pipeline_parallel_size,
-                enforce_eager=self.enforce_eager,
-            )
-            # Original method returns False when not run in the main thread
-            self.vllm_args._is_v1_supported_oracle = lambda *_: True
-        else:
-            # Check that provided args match Policy args
-            cfg = [
-                "model",
-                "tensor_parallel_size",
-                "pipeline_parallel_size",
-                "data_parallel_size",
-            ]
-            for key in cfg:
-                value = getattr(self, key) if key != "data_parallel_size" else 1
-                if getattr(self.vllm_args, key) != value:
-                    logger.warning(
-                        f"{key} args don't match value in EngineArgs, overriding with {value}"
-                    )
-                    setattr(self.vllm_args, key, value)
+        if isinstance(self.vllm_args, Mapping):
+            self.vllm_args = EngineConfig.from_dict(self.vllm_args)
+
+        # Original method returns False when not run in the main thread
+        self.vllm_args._is_v1_supported_oracle = lambda *_: True
         # Build Config
         self.vllm_args = self.vllm_args.create_engine_config(UsageContext.LLM_CLASS)
 
@@ -416,7 +410,9 @@ async def _load_tensor_parallel_state_dict(
 
         updated_count = 0
         # setting explictly to llama3 for now as its our only use case
-        sharding = VLLMSharding(self.tensor_parallel_size, self.rank)
+        sharding = VLLMSharding(
+            self.vllm_args.parallel_config.tensor_parallel_size, self.rank
+        )
 
         for param_name in current_state_dict.keys():
             current_tensor = current_state_dict[param_name]