Fix linting issues

odelalleau · odelalleau · commit 47337178d69c · 2025-07-23T12:28:34.000-04:00
Signed-off-by: Olivier Delalleau &lt;507137+odelalleau@users.noreply.github.com&gt;
diff --git a/nemo_rl/models/policy/__init__.py b/nemo_rl/models/policy/__init__.py
@@ -38,6 +38,7 @@ class RewardModelConfig(TypedDict):
     enabled: bool
     reward_model_type: str
 
+
 class MegatronOptimizerConfig(TypedDict):
     optimizer: str
     lr: float
diff --git a/nemo_rl/models/policy/dtensor_policy_worker.py b/nemo_rl/models/policy/dtensor_policy_worker.py
@@ -203,11 +203,15 @@ def __init__(
             else None,
         )
 
-        self._is_reward_model = self.cfg.get("reward_model_cfg", {}).get("enabled", False)
+        self._is_reward_model = self.cfg.get("reward_model_cfg", {}).get(
+            "enabled", False
+        )
         if self._is_reward_model:
             # Ensure sequence packing is disabled.
             if self.enable_seq_packing:
-                raise NotImplementedError("Sequence packing is not supported for reward models")
+                raise NotImplementedError(
+                    "Sequence packing is not supported for reward models"
+                )
             # Load model as a Reward Model.
             rm_type = self.cfg["reward_model_cfg"]["reward_model_type"]
             if rm_type == "bradley_terry":
@@ -227,9 +231,7 @@ def __init__(
                     )
                     model_config.num_labels = 1
             else:
-                raise ValueError(
-                    f"Unknown reward model type: {rm_type}"
-                )
+                raise ValueError(f"Unknown reward model type: {rm_type}")
         else:
             model_class = AutoModelForCausalLM