meta-pytorch · joecummings · Sep 15, 2025 · Sep 8, 2025 · Sep 8, 2025 · Sep 8, 2025
diff --git a/src/forge/actors/policy.py b/src/forge/actors/policy.py
@@ -13,9 +13,14 @@
 from typing import Dict, List
 
 import torch
+import torchstore as ts
+
+from forge.controller import ForgeActor, get_proc_mesh, stop_proc_mesh
+
+from forge.data.sharding import VLLMSharding
+from forge.interfaces import Policy as PolicyInterface
+from forge.types import ProcessConfig
 from monarch.actor import current_rank, endpoint, ProcMesh
-from torchstore import MultiProcessStore
-from torchstore._state_dict_utils import DELIM
 
 from vllm.engine.arg_utils import EngineArgs
 from vllm.entrypoints.utils import _validate_truncation_size
@@ -37,12 +42,6 @@
 from vllm.v1.structured_output import StructuredOutputManager
 from vllm.worker.worker_base import WorkerWrapperBase
 
-from forge.controller import ForgeActor, get_proc_mesh, stop_proc_mesh
-
-from forge.data.sharding import VLLMSharding
-from forge.interfaces import Policy as PolicyInterface
-from forge.types import ProcessConfig
-
 
 logger = logging.getLogger(__name__)
 
@@ -108,7 +107,6 @@ class Policy(PolicyInterface):
     lora_request: LoRARequest | None = None
     tokenization_kwargs: dict = field(default_factory=dict)
     policy_worker: "PolicyWorker" = None
-    store: MultiProcessStore | None = None
 
     def __post_init__(self):
         self._run_task: asyncio.Task | None = None
@@ -122,7 +120,6 @@ async def launch(  # pyright: ignore[reportIncompatibleMethodOverride]
         *,
         process_config: ProcessConfig,
         config: PolicyConfig,
-        store: MultiProcessStore | None = None,
         **kwargs,
     ) -> "Policy":
         # Note - get_proc_mesh will set MASTER_ADDR, MASTER_PORT and CUDA_VISIBLE_DEVICES
@@ -146,7 +143,6 @@ async def launch(  # pyright: ignore[reportIncompatibleMethodOverride]
             cls,
             config=config,
             policy_worker=workers,
-            store=store,
         )
         policy._policy_proc = policy_proc
         policy._worker_procs = worker_procs
@@ -174,7 +170,7 @@ async def shutdown(  # pyright: ignore[reportIncompatibleMethodOverride]
     async def setup(self):
         # Set up policy_worker
         assert self.policy_worker is not None, "Policy worker should not be None"
-        await self.policy_worker.setup.call(store=self.store)
+        await self.policy_worker.setup.call()
 
         self.request_id = 0
         self.requests: Dict[str, tuple[None | ParentRequest, asyncio.Future]] = {}
@@ -397,8 +393,7 @@ def __post_init__(self):
         self.vllm_args = self.vllm_args.create_engine_config(UsageContext.LLM_CLASS)
 
     @endpoint
-    async def setup(self, store: MultiProcessStore = None):
-        self.torchstore = store
+    async def setup(self):
         # TODO: remove ["gpus"] when monarch implements a flat rank
         self.rank = current_rank()["gpus"]
         self.worker = self.setup_worker()
@@ -420,11 +415,10 @@ async def _load_tensor_parallel_state_dict(
 
         for param_name in current_state_dict.keys():
             current_tensor = current_state_dict[param_name]
-
             # Load the full tensor from torchstore
             # TODO: only get the part of the tensor that is needed
-            stored_tensor = await self.torchstore.get(
-                f"{self.state_dict_key}{DELIM}{version}{DELIM}{param_name}"
+            stored_tensor = await ts.get(
+                f"{self.state_dict_key}/{version}/{param_name}"
             )
             sharding.load_from_source_to_target(
                 param_name,
@@ -437,11 +431,9 @@ async def _load_tensor_parallel_state_dict(
     @endpoint
     async def update(self, version: int):
         """Update model weights by reading state dict from torchstore"""
-        if self.torchstore is None:
-            raise Exception("No torchstore configured, skipping model update")
 
         logger.debug(
-            f"Starting model update from torchstore with key: {self.state_dict_key}{DELIM}{version}"
+            f"Starting model update from torchstore with key: {self.state_dict_key}/{version}"
         )
 
         model = self.worker.model_runner.model

diff --git a/src/forge/actors/trainer.py b/src/forge/actors/trainer.py
@@ -12,7 +12,12 @@
 from dataclasses import dataclass, field, fields
 
 import torch
+
+import torchstore as ts
+from forge.controller import ForgeActor
 from monarch.actor import current_rank, current_size, endpoint
+from torch.distributed.checkpoint._nested_dict import flatten_state_dict
+from torch.distributed.checkpoint.state_dict_saver import _stateful_to_state_dict
 from torchtitan.config.job_config import (
     ActivationCheckpoint,
     Checkpoint,
@@ -25,13 +30,10 @@
     Parallelism,
     Training,
 )
-
 from torchtitan.distributed import utils as dist_utils
 from torchtitan.experiments.forge.engine import ForgeEngine
 from torchtitan.experiments.forge.job_config import ForgeJobConfig
 
-from forge.controller import ForgeActor
-
 logger = logging.getLogger(__name__)
 logger.setLevel(logging.INFO)
 
@@ -68,7 +70,7 @@ def __post_init__(self):
                     f"{f.name} should be a {f.type} type or a dict like object"
                 )
 
-        self.current_step = 0
+        self.current_step = 1  # fragile contract.
         self.num_training_steps = self.training.steps
         self.gradient_accumulation_steps = 1
         self.rank = current_rank().rank
@@ -91,7 +93,9 @@ def __post_init__(self):
     @endpoint
     async def setup(self):
         # TODO: update ForgeEngine to not use ForgeJobConfig
-        engine_config = {f.name: getattr(self, f.name) for f in fields(self)}
+        engine_config = {
+            f.name: getattr(self, f.name) for f in fields(self) if f.name != "store"
+        }
         self.engine = ForgeEngine(ForgeJobConfig(**engine_config))
         self.engine.checkpointer.load(step=self.current_step)
         self.engine.optimizers.zero_grad()
@@ -261,8 +265,49 @@ def train_step(self, batch) -> None:
     #     return {"loss": avg_loss, "groups_processed": num_groups_processed}
 
     @endpoint
-    def push_weights(self) -> None:
-        pass
+    async def push_weights(self) -> None:
+        # save to torchstore. Hacking in to the Checkpointer's prepped state-dict for now.
+        # TODOs:
+        # 1. Checkpoint invokes state-dict flattening during dcp_save for [MODEL].
+        #    May need to replicate the same in this code path.
+        # 2. Unify CheckpointManager and TorchStore weights save control path.
+        print(f"Getting keys from checkpointer state and pushing to TS ...")
+        assert (
+            "model" in self.engine.checkpointer.states
+        ), "Model state not found in checkpointer state"
+        sd = self.engine.checkpointer.states["model"].state_dict()
+
+        flattened_state_dict, _ = flatten_state_dict(sd)
+        # Save the state dict using HF format.
+        # 1. Use the torch.titan adaptor's 'to_hf' routines to convert the state dict.
+        # 2. Missing conversions ( QKV, MLP fusion) is done using custom code. Probably
+        #    we should move that code to 'to_hf' function.
+
+        assert (
+            self.engine.checkpointer.sd_adapter is not None
+        ), "trying to save checkpoint in HF safetensors format, but sd_adapter is not provided."
+        hf_state_dict = self.engine.checkpointer.sd_adapter.to_hf(flattened_state_dict)
+
+        for i in range(32):  # improve this using regex similar to to_hf function.
+            prefix = f"model.layers.{i}."
+            # QKV fusion
+            q = hf_state_dict.pop(prefix + "self_attn.q_proj.weight")
+            k = hf_state_dict.pop(prefix + "self_attn.k_proj.weight")
+            v = hf_state_dict.pop(prefix + "self_attn.v_proj.weight")
+            hf_state_dict[prefix + "self_attn.qkv_proj.weight"] = torch.cat(
+                [q, k, v], dim=0
+            )
+            # MLP gate_up_proj fusion
+            gate = hf_state_dict.pop(prefix + "mlp.gate_proj.weight")
+            up = hf_state_dict.pop(prefix + "mlp.up_proj.weight")
+            hf_state_dict[prefix + "mlp.gate_up_proj.weight"] = torch.cat(
+                [gate, up], dim=0
+            )
+
+        await ts.put_state_dict(
+            state_dict=hf_state_dict,
+            key=f"model_state_dict/{self.current_step}",
+        )
 
     @endpoint
     async def cleanup(self) -> None: