perf: Add a field in SFT data config to modify num_workers for loading data (#1143)

katec846 · web-flow · commit cde2acd6e4d9 · 2025-09-22T22:42:09.000Z
Signed-off-by: Kate Cheng &lt;yunhsuanc@nvidia.com&gt;
diff --git a/examples/configs/sft.yaml b/examples/configs/sft.yaml
@@ -136,6 +136,7 @@ data:
   add_eos: true
   add_generation_prompt: false
   shuffle: true
+  num_workers: 1
 
   dataset_name: "squad"
   # You can use custom response datasets for training and validation. For example:
diff --git a/nemo_rl/algorithms/sft.py b/nemo_rl/algorithms/sft.py
@@ -138,6 +138,7 @@ def setup(
         shuffle=data_config["shuffle"],
         collate_fn=rl_collate_fn,
         drop_last=True,
+        num_workers=data_config["num_workers"],
     )
 
     if last_checkpoint_path is not None:
@@ -152,6 +153,7 @@ def setup(
         shuffle=False,
         collate_fn=rl_collate_fn,
         drop_last=False,
+        num_workers=data_config["num_workers"],
     )
 
     # ==========================
diff --git a/nemo_rl/data/__init__.py b/nemo_rl/data/__init__.py
@@ -33,6 +33,11 @@ class DataConfig(TypedDict):
     download_dir: NotRequired[str]
     train_data_path: NotRequired[str]
     val_data_paths: NotRequired[dict[str, str]]
+    # Number of data loader workers.
+    # Set to 8 or 10 for large batches to improve loading speed.
+    # This saturates CPU threads without consuming too much memory
+    # However, setting it too high might cause memory issues for long seqlens.
+    num_workers: NotRequired[int]
 
 
 class MathDataConfig(DataConfig):

Original file line number	Diff line number	Diff line change
`@@ -138,6 +138,7 @@ def setup(`
`138`	`138`	`shuffle=data_config["shuffle"],`
`139`	`139`	`collate_fn=rl_collate_fn,`
`140`	`140`	`drop_last=True,`
	`141`	`+ num_workers=data_config["num_workers"],`
`141`	`142`	`)`
`142`	`143`
`143`	`144`	`if last_checkpoint_path is not None:`
`@@ -152,6 +153,7 @@ def setup(`
`152`	`153`	`shuffle=False,`
`153`	`154`	`collate_fn=rl_collate_fn,`
`154`	`155`	`drop_last=False,`
	`156`	`+ num_workers=data_config["num_workers"],`
`155`	`157`	`)`
`156`	`158`
`157`	`159`	`# ==========================`