AMD-AGI
diff --git a/‎examples/run_local_pretrain.sh‎
Lines changed: 1 addition & 0 deletions b/‎examples/run_local_pretrain.sh‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎examples/run_pretrain.sh‎
Lines changed: 24 additions & 0 deletions b/‎examples/run_pretrain.sh‎
Lines changed: 24 additions & 0 deletions
diff --git a/‎examples/run_slurm_pretrain.sh‎
Lines changed: 1 addition & 0 deletions b/‎examples/run_slurm_pretrain.sh‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎examples/torchtitan/configs/MI300X/deepseek_v3_16b-pretrain.yaml‎
Lines changed: 14 additions & 5 deletions b/‎examples/torchtitan/configs/MI300X/deepseek_v3_16b-pretrain.yaml‎
Lines changed: 14 additions & 5 deletions
diff --git a/‎examples/torchtitan/configs/MI300X/deepseek_v3_671b-pretrain.yaml‎
Lines changed: 17 additions & 7 deletions b/‎examples/torchtitan/configs/MI300X/deepseek_v3_671b-pretrain.yaml‎
Lines changed: 17 additions & 7 deletions
diff --git a/‎examples/torchtitan/configs/MI355X/deepseek_v3_16b-pretrain.yaml‎
Lines changed: 14 additions & 5 deletions b/‎examples/torchtitan/configs/MI355X/deepseek_v3_16b-pretrain.yaml‎
Lines changed: 14 additions & 5 deletions
diff --git a/‎examples/torchtitan/configs/MI355X/deepseek_v3_671b-pretrain.yaml‎
Lines changed: 17 additions & 7 deletions b/‎examples/torchtitan/configs/MI355X/deepseek_v3_671b-pretrain.yaml‎
Lines changed: 17 additions & 7 deletions
diff --git a/‎primus/backends/megatron/core/extensions/primus_turbo.py‎
Lines changed: 10 additions & 1 deletion b/‎primus/backends/megatron/core/extensions/primus_turbo.py‎
Lines changed: 10 additions & 1 deletion
diff --git a/‎primus/backends/megatron/core/fp8_utils.py‎
Lines changed: 28 additions & 7 deletions b/‎primus/backends/megatron/core/fp8_utils.py‎
Lines changed: 28 additions & 7 deletions
@@ -143,6 +143,7 @@ docker_podman_proxy run --rm \
     --env TORCHTITAN_PATH \
     --env MAXTEXT_PATH \
     --env BACKEND_PATH \
+    --env REBUILD_PRIMUS_TURBO \
     "${ENV_ARGS[@]}" \
     --ipc=host --network=host \
     --device=/dev/kfd --device=/dev/dri \
 
@@ -277,6 +277,30 @@ export NVTE_CK_USES_BWD_V3=${NVTE_CK_USES_BWD_V3:-0}
 # Note: Disable fp32 atomic due if you find any accuracy issue.
 export PRIMUS_TURBO_ATTN_V3_ATOMIC_FP32=${PRIMUS_TURBO_ATTN_V3_ATOMIC_FP32:-0}
 
+# install primus turbo from source
+export REBUILD_PRIMUS_TURBO=${REBUILD_PRIMUS_TURBO:-0}
+if [ "$REBUILD_PRIMUS_TURBO" == "1" ]; then
+    LOG_INFO "Rebuilding Primus Turbo from source..."
+    mkdir -p "/workspace/turbo"
+    cd "/workspace/turbo"
+    
+    # Clean up old directory if exists to avoid git clone conflicts
+    if [ -d "Primus-Turbo" ]; then
+        LOG_INFO "Removing existing Primus-Turbo directory..."
+        rm -rf Primus-Turbo
+    fi
+    
+    git clone https://github.com/AMD-AGI/Primus-Turbo.git --recursive 
+    cd Primus-Turbo
+    pip3 install -r requirements.txt
+    # Set GPU_ARCHS to compile Turbo for multiple AMD GPU architectures.
+    GPU_ARCHS="gfx942;gfx950" pip3 install --no-build-isolation .
+    cd "${PRIMUS_PATH}"
+    LOG_INFO "Rebuilding Primus Turbo from source done."
+else
+    LOG_INFO "Skip Primus Turbo rebuild. REBUILD_PRIMUS_TURBO=$REBUILD_PRIMUS_TURBO"
+fi
+
 # nvte debug envs
 export NVTE_DEBUG=0 # 0, 1
 export NVTE_DEBUG_LEVEL=0 # 0, 1, 2
 
@@ -57,5 +57,6 @@ srun -N "${NNODES}" \
           export NNODES=\${SLURM_NNODES}
           export NODE_RANK=\${SLURM_PROCID}
           export GPUS_PER_NODE=\${SLURM_GPUS_ON_NODE}
+          export REBUILD_PRIMUS_TURBO=\${REBUILD_PRIMUS_TURBO}
           bash ${SCRIPT_DIR}/run_local_pretrain.sh \"\$@\" 2>&1 | tee ${LOG_FILE}
      " bash "$@"
@@ -13,14 +13,14 @@ modules:
     model: deepseek_v3_16b.yaml
     overrides:
       profiling:
-        enable_profiling: false
+        enable_profiling: true
         save_traces_folder: "profile_trace"
         profile_freq: 10
         enable_memory_snapshot: false
         save_memory_snapshot_folder: "memory_snapshot"
 
       metrics:
-        log_freq: 10
+        log_freq: 1
         disable_color_printing: false
         enable_tensorboard: false
         save_tb_folder: "tb"
@@ -38,11 +38,12 @@ modules:
         min_lr_factor: 0.1
 
       training:
+        debug_moe_force_load_balance: true
         local_batch_size: 4
         seq_len: 4096
         max_norm: 1.0            # grad norm clipping
-        steps: 1000
-        dataset: "c4"            # supported datasets: c4_test (2K), c4 (177M)
+        steps: 15
+        dataset: "c4_test"            # supported datasets: c4_test (2K), c4 (177M)
 
       parallelism:
         data_parallel_replicate_degree: 1
@@ -69,8 +70,16 @@ modules:
 
       compile:
         enable: true
-        components: ["loss"]     # ["model", "loss"]
+        components: ["model", "loss"]     # ["model", "loss"]
 
+      primus_turbo:
+        enable_primus_turbo: true
+        use_turbo_mx_linear: false
+        use_turbo_float8_linear: true
+        enable_attention_float8: false
+        use_turbo_grouped_mm: true
+        use_moe_fp8: false
+        
       # quantize:
       #   linear:
       #     float8:
 
@@ -13,14 +13,14 @@ modules:
     model: deepseek_v3_671b.yaml
     overrides:
       profiling:
-        enable_profiling: false
+        enable_profiling: true
         save_traces_folder: "profile_trace"
         profile_freq: 10
         enable_memory_snapshot: false
         save_memory_snapshot_folder: "memory_snapshot"
 
       metrics:
-        log_freq: 10
+        log_freq: 1
         disable_color_printing: false
         enable_tensorboard: false
         save_tb_folder: "tb"
@@ -38,11 +38,12 @@ modules:
         min_lr_factor: 0.1
 
       training:
-        local_batch_size: 4
+        debug_moe_force_load_balance: true
+        local_batch_size: 16
         seq_len: 4096
         max_norm: 1.0            # grad norm clipping
-        steps: 1000
-        dataset: "c4"            # supported datasets: c4_test (2K), c4 (177M)
+        steps: 15
+        dataset: "c4_test"            # supported datasets: c4_test (2K), c4 (177M)
 
       parallelism:
         data_parallel_replicate_degree: 1
@@ -52,7 +53,7 @@ modules:
         enable_async_tensor_parallel: false
         pipeline_parallel_degree: 1
         pipeline_parallel_schedule: "Interleaved1F1B"
-        expert_parallel_degree: 1
+        expert_parallel_degree: 8
         expert_tensor_parallel_degree: 1
 
       checkpoint:
@@ -69,7 +70,16 @@ modules:
 
       compile:
         enable: true
-        components: ["loss"]     # ["model", "loss"]
+        components: ["model", "loss"]     # ["model", "loss"]
+
+      primus_turbo:
+        enable_primus_turbo: true
+        use_turbo_mx_linear: false
+        use_turbo_float8_linear: true
+        enable_attention_float8: false
+        use_classic_attention: true
+        use_turbo_grouped_mm: true
+        use_moe_fp8: false
 
       # quantize:
       #   linear:
 
@@ -13,14 +13,14 @@ modules:
     model: deepseek_v3_16b.yaml
     overrides:
       profiling:
-        enable_profiling: false
+        enable_profiling: true
         save_traces_folder: "profile_trace"
         profile_freq: 10
         enable_memory_snapshot: false
         save_memory_snapshot_folder: "memory_snapshot"
 
       metrics:
-        log_freq: 10
+        log_freq: 1
         disable_color_printing: false
         enable_tensorboard: false
         save_tb_folder: "tb"
@@ -38,11 +38,12 @@ modules:
         min_lr_factor: 0.1
 
       training:
+        debug_moe_force_load_balance: true
         local_batch_size: 4
         seq_len: 4096
         max_norm: 1.0            # grad norm clipping
-        steps: 1000
-        dataset: "c4"            # supported datasets: c4_test (2K), c4 (177M)
+        steps: 15
+        dataset: "c4_test"            # supported datasets: c4_test (2K), c4 (177M)
 
       parallelism:
         data_parallel_replicate_degree: 1
@@ -69,8 +70,16 @@ modules:
 
       compile:
         enable: true
-        components: ["loss"]     # ["model", "loss"]
+        components: ["model", "loss"]     # ["model", "loss"]
 
+      primus_turbo:
+        enable_primus_turbo: true
+        use_turbo_mx_linear: false
+        use_turbo_float8_linear: true
+        enable_attention_float8: false
+        use_turbo_grouped_mm: true
+        use_moe_fp8: false
+        
       # quantize:
       #   linear:
       #     float8:
 
@@ -13,14 +13,14 @@ modules:
     model: deepseek_v3_671b.yaml
     overrides:
       profiling:
-        enable_profiling: false
+        enable_profiling: true
         save_traces_folder: "profile_trace"
         profile_freq: 10
         enable_memory_snapshot: false
         save_memory_snapshot_folder: "memory_snapshot"
 
       metrics:
-        log_freq: 10
+        log_freq: 1
         disable_color_printing: false
         enable_tensorboard: false
         save_tb_folder: "tb"
@@ -38,11 +38,12 @@ modules:
         min_lr_factor: 0.1
 
       training:
-        local_batch_size: 4
+        debug_moe_force_load_balance: true
+        local_batch_size: 16
         seq_len: 4096
         max_norm: 1.0            # grad norm clipping
-        steps: 1000
-        dataset: "c4"            # supported datasets: c4_test (2K), c4 (177M)
+        steps: 15
+        dataset: "c4_test"            # supported datasets: c4_test (2K), c4 (177M)
 
       parallelism:
         data_parallel_replicate_degree: 1
@@ -52,7 +53,7 @@ modules:
         enable_async_tensor_parallel: false
         pipeline_parallel_degree: 1
         pipeline_parallel_schedule: "Interleaved1F1B"
-        expert_parallel_degree: 1
+        expert_parallel_degree: 8
         expert_tensor_parallel_degree: 1
 
       checkpoint:
@@ -69,7 +70,16 @@ modules:
 
       compile:
         enable: true
-        components: ["loss"]     # ["model", "loss"]
+        components: ["model", "loss"]     # ["model", "loss"]
+
+      primus_turbo:
+        enable_primus_turbo: true
+        use_turbo_mx_linear: false
+        use_turbo_float8_linear: true
+        enable_attention_float8: false
+        use_classic_attention: true
+        use_turbo_grouped_mm: true
+        use_moe_fp8: false
 
       # quantize:
       #   linear:
 
@@ -29,7 +29,16 @@
 from megatron.core.transformer.utils import make_sharded_tensors_for_checkpoint
 from megatron.core.utils import get_tensor_model_parallel_group_if_none
 from megatron.training.global_vars import get_args
-from primus_turbo.pytorch.core.float8 import (
+
+try:
+    from primus_turbo.pytorch.core.float8 import (
+        Float8QuantConfig,
+        ScalingGranularity,
+        ScalingStrategy,
+        check_fp8_support,
+    )
+except ImportError:
+    from primus_turbo.pytorch.core.low_precision import (
     Float8QuantConfig,
     ScalingGranularity,
     ScalingStrategy,
 
@@ -42,14 +42,22 @@
     from megatron.core import parallel_state
     from megatron.core.enums import Fp8Recipe
     from megatron.core.extensions.transformer_engine import TEDelayedScaling
-    from primus_turbo.pytorch.core.float8 import ScalingGranularity
+    try:
+        from primus_turbo.pytorch.core.float8 import ScalingGranularity
+    except ImportError:
+        from primus_turbo.pytorch.core.low_precision import ScalingGranularity
+    
 
     from primus.backends.megatron.core.extensions.primus_turbo import (
         PrimusTurboFloat8QuantConfig,
     )
 
     def te_fp8_format_mapping(te_format):
-        from primus_turbo.pytorch.core.float8 import Format as TurboFormat
+        try:
+            from primus_turbo.pytorch.core.float8 import Format as TurboFormat
+        except ImportError:
+            from primus_turbo.pytorch.core.low_precision import Format as TurboFormat
+        # noqa: F811
         from transformer_engine.common.recipe import Format as TEFormat
 
         format_mapping = {
@@ -194,7 +202,10 @@ def get_fp8_context(config: TransformerConfig, layer_no: int = -1, is_init: bool
 elif HAVE_TURBO:
     from megatron.core import parallel_state
     from megatron.core.enums import Fp8Recipe
-    from primus_turbo.pytorch.core.float8 import ScalingGranularity
+    try:
+        from primus_turbo.pytorch.core.float8 import ScalingGranularity
+    except ImportError:
+        from primus_turbo.pytorch.core.low_precision import ScalingGranularity
 
     from primus.backends.megatron.core.extensions.primus_turbo import (
         PrimusTurboFloat8QuantConfig,
@@ -234,10 +245,20 @@ def get_fp8_context(config: TransformerConfig, layer_no: int = -1, is_init: bool
             # fp8 training and this layer_no is in fp8
             import primus_turbo
 
-            if config.fp8 == "e4m3":
-                fp8_format = primus_turbo.pytorch.core.float8.Format.E4M3
-            elif config.fp8 == "hybrid":
-                fp8_format = primus_turbo.pytorch.core.float8.Format.HYBRID
+            # Pick the right Format enum once
+            try:
+                # Older API
+                from primus_turbo.pytorch.core.float8 import Format as FP8Format
+            except ImportError:
+                # Newer API
+                from primus_turbo.pytorch.core.low_precision import Format as FP8Format
+
+            fp8_str = config.fp8.lower()
+
+            if fp8_str == "e4m3":
+                fp8_format = FP8Format.E4M3
+            elif fp8_str == "hybrid":
+                fp8_format = FP8Format.HYBRID
             else:
                 raise ValueError("E4M3 and HYBRID are the only supported FP8 formats.")