meta-pytorch · joecummings · Sep 15, 2025 · Sep 8, 2025 · Sep 8, 2025 · Sep 8, 2025
diff --git a/src/forge/actors/policy.py b/src/forge/actors/policy.py
@@ -14,9 +14,14 @@
 from typing import Dict, List
 
 import torch
+import torchstore as ts
+
+from forge.controller import ForgeActor, get_proc_mesh, stop_proc_mesh
+
+from forge.data.sharding import VLLMSharding
+from forge.interfaces import Policy as PolicyInterface
+from forge.types import ProcessConfig
 from monarch.actor import current_rank, endpoint, ProcMesh
-from torchstore import MultiProcessStore
-from torchstore._state_dict_utils import DELIM
 
 from vllm.engine.arg_utils import EngineArgs
 from vllm.entrypoints.utils import _validate_truncation_size
@@ -38,12 +43,6 @@
 from vllm.v1.structured_output import StructuredOutputManager
 from vllm.worker.worker_base import WorkerWrapperBase
 
-from forge.controller import ForgeActor, get_proc_mesh, stop_proc_mesh
-
-from forge.data.sharding import VLLMSharding
-from forge.interfaces import Policy as PolicyInterface
-from forge.types import ProcessConfig
-
 
 logger = logging.getLogger(__name__)
 
@@ -111,7 +110,6 @@ class Policy(PolicyInterface):
     lora_request: LoRARequest | None = None
     tokenization_kwargs: dict = field(default_factory=dict)
     policy_worker: "PolicyWorker" = None
-    store: MultiProcessStore | None = None
 
     def __post_init__(self):
         self._run_task: asyncio.Task | None = None
@@ -131,7 +129,6 @@ async def launch(  # pyright: ignore[reportIncompatibleMethodOverride]
         engine_config: EngineConfig | Mapping = EngineConfig(),
         sampling_config: SamplingConfig | Mapping = SamplingConfig(),
         available_devices: str | None = None,
-        store: MultiProcessStore | None = None,
         **kwargs,
     ) -> "Policy":
         # Note - get_proc_mesh will set MASTER_ADDR, MASTER_PORT and CUDA_VISIBLE_DEVICES
@@ -164,7 +161,6 @@ async def launch(  # pyright: ignore[reportIncompatibleMethodOverride]
             sampling_config=sampling_config,
             available_devices=available_devices,
             policy_worker=workers,
-            store=store,
         )
         policy._policy_proc = policy_proc
         policy._worker_procs = worker_procs
@@ -192,7 +188,7 @@ async def shutdown(  # pyright: ignore[reportIncompatibleMethodOverride]
     async def setup(self):
         # Set up policy_worker
         assert self.policy_worker is not None, "Policy worker should not be None"
-        await self.policy_worker.setup.call(store=self.store)
+        await self.policy_worker.setup.call()
 
         self.request_id = 0
         self.requests: Dict[str, tuple[None | ParentRequest, asyncio.Future]] = {}
@@ -391,8 +387,7 @@ def __post_init__(self):
         self.vllm_args = self.vllm_args.create_engine_config(UsageContext.LLM_CLASS)
 
     @endpoint
-    async def setup(self, store: MultiProcessStore = None):
-        self.torchstore = store
+    async def setup(self):
         # TODO: remove ["gpus"] when monarch implements a flat rank
         self.rank = current_rank()["gpus"]
         self.worker = self.setup_worker()
@@ -416,11 +411,10 @@ async def _load_tensor_parallel_state_dict(
 
         for param_name in current_state_dict.keys():
             current_tensor = current_state_dict[param_name]
-
             # Load the full tensor from torchstore
             # TODO: only get the part of the tensor that is needed
-            stored_tensor = await self.torchstore.get(
-                f"{self.state_dict_key}{DELIM}{version}{DELIM}{param_name}"
+            stored_tensor = await ts.get(
+                f"{self.state_dict_key}/{version}/{param_name}"
             )
             sharding.load_from_source_to_target(
                 param_name,
@@ -433,11 +427,9 @@ async def _load_tensor_parallel_state_dict(
     @endpoint
     async def update(self, version: int):
         """Update model weights by reading state dict from torchstore"""
-        if self.torchstore is None:
-            raise Exception("No torchstore configured, skipping model update")
 
         logger.debug(
-            f"Starting model update from torchstore with key: {self.state_dict_key}{DELIM}{version}"
+            f"Starting model update from torchstore with key: {self.state_dict_key}/{version}"
         )
 
         model = self.worker.model_runner.model

diff --git a/src/forge/actors/trainer.py b/src/forge/actors/trainer.py
@@ -10,9 +10,15 @@
 import os
 from collections.abc import Mapping
 from dataclasses import dataclass, field, fields
+from typing import Any, Dict
 
 import torch
+
+import torchstore as ts
+from forge.controller import ForgeActor
 from monarch.actor import current_rank, current_size, endpoint
+from torch.distributed.checkpoint._nested_dict import flatten_state_dict
+from torch.distributed.checkpoint.state_dict_saver import _stateful_to_state_dict
 from torchtitan.config.job_config import (
     ActivationCheckpoint,
     Checkpoint,
@@ -25,13 +31,10 @@
     Parallelism,
     Training,
 )
-
 from torchtitan.distributed import utils as dist_utils
 from torchtitan.experiments.forge.engine import ForgeEngine
 from torchtitan.experiments.forge.job_config import ForgeJobConfig
 
-from forge.controller import ForgeActor
-
 logger = logging.getLogger(__name__)
 logger.setLevel(logging.INFO)
 
@@ -68,7 +71,7 @@ def __post_init__(self):
                     f"{f.name} should be a {f.type} type or a dict like object"
                 )
 
-        self.current_step = 0
+        self.current_step = 1  # fragile contract.
         self.num_training_steps = self.training.steps
         self.gradient_accumulation_steps = 1
         self.rank = current_rank().rank
@@ -261,10 +264,60 @@ def train_step(self, batch) -> None:
     #     return {"loss": avg_loss, "groups_processed": num_groups_processed}
 
     @endpoint
-    def push_weights(self) -> None:
-        pass
+    async def push_weights(self) -> None:
+        # save to torchstore. Hacking in to the Checkpointer's prepped state-dict for now.
+        # TODOs:
+        # 1. Checkpoint invokes state-dict flattening during dcp_save for [MODEL].
+        #    May need to replicate the same in this code path.
+        # 2. Unify CheckpointManager and TorchStore weights save control path.
+        print(f"Getting keys from checkpointer state and pushing to TS ...")
+        assert (
+            "model" in self.engine.checkpointer.states
+        ), "Model state not found in checkpointer state"
+        sd = self.engine.checkpointer.states["model"].state_dict()
+
+        flattened_state_dict, _ = flatten_state_dict(sd)
+        # Save the state dict using HF format.
+        # 1. Use the torch.titan adaptor's 'to_hf' routines to convert the state dict.
+        # 2. Missing conversions ( QKV, MLP fusion) is done using custom code. Probably
+        #    we should move that code to 'to_hf' function.
+
+        assert (
+            self.engine.checkpointer.sd_adapter is not None
+        ), "trying to save checkpoint in HF safetensors format, but sd_adapter is not provided."
+        hf_state_dict = self.engine.checkpointer.sd_adapter.to_hf(flattened_state_dict)
+
+        vllm_ready_hf_sd = llama3_hf_to_vllm(hf_trainer_sd=hf_state_dict)
+
+        await ts.put_state_dict(
+            state_dict=vllm_ready_hf_sd,
+            key=f"model_state_dict/{self.current_step}",
+        )
 
     @endpoint
     async def cleanup(self) -> None:
         if self.engine.checkpointer:
             self.engine.checkpointer.close()
+
+
+def llama3_hf_to_vllm(hf_trainer_sd: Dict[str, Any]) -> Dict[str, Any]:
+    """
+    Convert HF formatted state-dict to VLLM format. Ideally this conversion
+    should not be needed, if the VLLM fully supports the loading of
+    HF formatted llama3 model.
+    """
+    for i in range(32):  # number of layers in llama3 8B model.
+        prefix = f"model.layers.{i}."
+        # QKV fusion
+        q = hf_trainer_sd.pop(prefix + "self_attn.q_proj.weight")
+        k = hf_trainer_sd.pop(prefix + "self_attn.k_proj.weight")
+        v = hf_trainer_sd.pop(prefix + "self_attn.v_proj.weight")
+        hf_trainer_sd[prefix + "self_attn.qkv_proj.weight"] = torch.cat(
+            [q, k, v], dim=0
+        )
+        # MLP gate_up_proj fusion
+        gate = hf_trainer_sd.pop(prefix + "mlp.gate_proj.weight")
+        up = hf_trainer_sd.pop(prefix + "mlp.up_proj.weight")
+        hf_trainer_sd[prefix + "mlp.gate_up_proj.weight"] = torch.cat([gate, up], dim=0)
+
+    return hf_trainer_sd