Enabling TP Comm Overlap and Packed Sequencing Configs for LLAMA3 70B… (#2247)

rhmukundan · web-flow · commit f3961208c343 · 2026-02-10T18:49:42.000+01:00
Signed-off-by: Raghav Hrishikeshan Mukundan &lt;rmukundan@nvidia.com&gt;
Signed-off-by: Raghav Hrishikeshan Mukundan &lt;102543536+rhmukundan@users.noreply.github.com&gt;
diff --git a/scripts/performance/configs/llama/llama3_llm_finetune.py b/scripts/performance/configs/llama/llama3_llm_finetune.py
@@ -209,6 +209,7 @@ def llama3_70b_lora_config_gb300(precision: str = "bf16", config_variant: str =
     )
     set_llama3_common_peft_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
+    cfg.comm_overlap = CommOverlapConfig(tp_comm_overlap=bool(cfg.model.tensor_model_parallel_size > 1))
 
     # Override target_modules to only apply LoRA to QKV
     cfg.peft.target_modules = ["linear_qkv"]
@@ -245,6 +246,12 @@ def llama3_70b_lora_config_gb200(precision: str = "bf16", config_variant: str =
     )
     set_llama3_common_peft_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
+    # Enable pad_cu_seqlens for CUDA graphs compatibility with packed sequences.
+    # This ensures consistent cu_seqlens tensor shapes across batches, which is required
+    # for CUDA graphs and avoids NaN issues in attention kernels.
+    cfg.dataset.packed_sequence_specs.pad_cu_seqlens = True
+    cfg.dataset.dataset_kwargs["pad_to_max_length"] = True
+    cfg.comm_overlap = CommOverlapConfig(tp_comm_overlap=bool(cfg.model.tensor_model_parallel_size > 1))
 
     # Override target_modules to only apply LoRA to QKV
     cfg.peft.target_modules = ["linear_qkv"]
@@ -272,6 +279,7 @@ def llama3_70b_lora_config_h100(precision: str = "bf16", config_variant: str = "
     )
     set_llama3_common_peft_configs(cfg)
     set_workload_base_configs(cfg, base_cfg)
+    cfg.comm_overlap = CommOverlapConfig(tp_comm_overlap=bool(cfg.model.tensor_model_parallel_size > 1))
 
     # Override target_modules to only apply LoRA to QKV
     cfg.peft.target_modules = ["linear_qkv"]