add dsv3 config for MI355

JohnQinAMD · JohnQinAMD · commit f89348dd248a · 2025-11-26T00:31:41.000Z
diff --git a/examples/torchtitan/configs/MI355X/deepseek_v3_16b-pretrain.yaml b/examples/torchtitan/configs/MI355X/deepseek_v3_16b-pretrain.yaml
@@ -13,14 +13,14 @@ modules:
     model: deepseek_v3_16b.yaml
     overrides:
       profiling:
-        enable_profiling: false
+        enable_profiling: true
         save_traces_folder: "profile_trace"
         profile_freq: 10
         enable_memory_snapshot: false
         save_memory_snapshot_folder: "memory_snapshot"
 
       metrics:
-        log_freq: 10
+        log_freq: 1
         disable_color_printing: false
         enable_tensorboard: false
         save_tb_folder: "tb"
@@ -38,11 +38,12 @@ modules:
         min_lr_factor: 0.1
 
       training:
+        debug_moe_force_load_balance: true
         local_batch_size: 4
         seq_len: 4096
         max_norm: 1.0            # grad norm clipping
-        steps: 1000
-        dataset: "c4"            # supported datasets: c4_test (2K), c4 (177M)
+        steps: 15
+        dataset: "c4_test"            # supported datasets: c4_test (2K), c4 (177M)
 
       parallelism:
         data_parallel_replicate_degree: 1
@@ -69,8 +70,16 @@ modules:
 
       compile:
         enable: true
-        components: ["loss"]     # ["model", "loss"]
+        components: ["model", "loss"]     # ["model", "loss"]
 
+      primus_turbo:
+        enable_primus_turbo: true
+        use_turbo_mx_linear: false
+        use_turbo_float8_linear: true
+        enable_attention_float8: false
+        use_turbo_grouped_mm: true
+        use_moe_fp8: false
+        
       # quantize:
       #   linear:
       #     float8:
diff --git a/examples/torchtitan/configs/MI355X/deepseek_v3_671b-pretrain.yaml b/examples/torchtitan/configs/MI355X/deepseek_v3_671b-pretrain.yaml
@@ -13,14 +13,14 @@ modules:
     model: deepseek_v3_671b.yaml
     overrides:
       profiling:
-        enable_profiling: false
+        enable_profiling: true
         save_traces_folder: "profile_trace"
         profile_freq: 10
         enable_memory_snapshot: false
         save_memory_snapshot_folder: "memory_snapshot"
 
       metrics:
-        log_freq: 10
+        log_freq: 1
         disable_color_printing: false
         enable_tensorboard: false
         save_tb_folder: "tb"
@@ -38,11 +38,12 @@ modules:
         min_lr_factor: 0.1
 
       training:
-        local_batch_size: 4
+        debug_moe_force_load_balance: true
+        local_batch_size: 16
         seq_len: 4096
         max_norm: 1.0            # grad norm clipping
-        steps: 1000
-        dataset: "c4"            # supported datasets: c4_test (2K), c4 (177M)
+        steps: 15
+        dataset: "c4_test"            # supported datasets: c4_test (2K), c4 (177M)
 
       parallelism:
         data_parallel_replicate_degree: 1
@@ -52,7 +53,7 @@ modules:
         enable_async_tensor_parallel: false
         pipeline_parallel_degree: 1
         pipeline_parallel_schedule: "Interleaved1F1B"
-        expert_parallel_degree: 1
+        expert_parallel_degree: 8
         expert_tensor_parallel_degree: 1
 
       checkpoint:
@@ -69,7 +70,16 @@ modules:
 
       compile:
         enable: true
-        components: ["loss"]     # ["model", "loss"]
+        components: ["model", "loss"]     # ["model", "loss"]
+
+      primus_turbo:
+        enable_primus_turbo: true
+        use_turbo_mx_linear: false
+        use_turbo_float8_linear: true
+        enable_attention_float8: false
+        use_classic_attention: true
+        use_turbo_grouped_mm: true
+        use_moe_fp8: false
 
       # quantize:
       #   linear: