run gptoss

kkscilife · kkscilife · commit 5b3ee6a2a13d · 2026-02-10T17:09:00.000+08:00
diff --git a/.github/workflows/e2e_test.yaml b/.github/workflows/e2e_test.yaml
@@ -5,6 +5,7 @@ permissions:
   pages: write
 
 on:
+  push:
   workflow_dispatch:
     inputs:
       repo_org:
@@ -29,16 +30,16 @@ jobs:
         run: sudo git clean -ffdx
       - name: Clone repository
         uses: actions/checkout@v2
-        with:
-          repository: ${{ github.event.inputs.repo_org || 'InternLM/xtuner' }}
-          ref: ${{github.event.inputs.repo_ref || 'main'}}
+          #with:
+          #repository: ${{ github.event.inputs.repo_org || 'InternLM/xtuner' }}
+          #ref: ${{github.event.inputs.repo_ref || 'main'}}
       - name: run-test
         run: |
           source /mnt/shared-storage-user/opencompass-shared/qa-llm-cicd/miniconda3/bin/activate
           conda activate clusterx 
           conda env list
           unset HTTP_PROXY;unset HTTPS_PROXY;unset http_proxy;unset https_proxy;
-          pytest autotest/test_all.py -m all -n 1 -vv --run_id ${{ github.run_id }}
+          pytest autotest/test_all.py::test_all[gptoss-sft] -m all -n 1 -vv --run_id ${{ github.run_id }}
 
       - name: Upload Artifacts
         if: ${{ !cancelled() }}
diff --git a/autotest/cluster/clusterx.py b/autotest/cluster/clusterx.py
@@ -67,7 +67,7 @@ def execute_task(self, task_config: Dict[str, Any]):
             if status in [JobStatus.SUCCEEDED]:
                 run_time = time.time() - run_start_time
                 if run_time >= timeout:
-                    return False, 'Task succeeded, but run time is {run_time}, exceeding then {timeout}'
+                    return False, f'Task succeeded, but run time is {run_time}, exceeding then {timeout}'
                 else:
                     return True, "Task succeeded"
             elif status in [JobStatus.FAILED, JobStatus.STOPPED]:
diff --git a/autotest/config.yaml b/autotest/config.yaml
@@ -209,6 +209,28 @@ case:
                     runtime_info/text_tokens: 0
             timeout: 10800
 
+    gptoss-sft:
+        -
+            type: sft
+            parameters:
+                config: autotest/config/gptoss.py
+                output_path: /mnt/shared-storage-user/llmrazor-share/qa-llm-cicd/test_output
+            resource:
+                envs:
+                    - GPTOSS_21B_PATH=/mnt/shared-storage-user/llmrazor-share/model/gpt-oss-20b-bf16
+                    - ALPACA_PATH=/mnt/shared-storage-user/llmrazor-share/data/alpaca2
+                    - XTUNER_DETERMINISTIC=true
+            assert_info:
+                base_metric: gptoss-sft/7b774a0e2/tracker.jsonl
+                check_metrics:
+                    grad_norm: 0.000001
+                    loss/reduced_llm_loss: 0.000001
+                    lr: 0
+                    memory/max_memory_GB: 0.2
+                    runtime_info/tgs: 0.05
+                    runtime_info/text_tokens: 0
+            timeout: 10800
+
     qwen3-rl-lmdeploy:
         -
             type: rl
diff --git a/autotest/config/gptoss.py b/autotest/config/gptoss.py
@@ -0,0 +1,55 @@
+import os
+
+from xtuner.v1.config import (
+    AdamWConfig,
+    FSDPConfig,
+    LRConfig,
+)
+from xtuner.v1.datasets import FTDPTokenizeFnConfig
+from xtuner.v1.datasets.config import DataloaderConfig, DatasetConfig
+from xtuner.v1.loss.ce_loss import CELossConfig
+from xtuner.v1.module.rope import RopeScalingConfig
+from xtuner.v1.model.moe.gpt_oss import GptOss21BA3P6Config
+from xtuner.v1.train import TrainerConfig
+
+
+GPTOSS_21B_PATH = os.environ["GPTOSS_21B_PATH"]
+ALPACA_PATH = os.environ["ALPACA_PATH"]
+
+
+gptoss_cfg = GptOss21BA3P6Config(rope_scaling_cfg=RopeScalingConfig(type="yarn", beta_fast=16.0, beta_slow=1.05, factor=16.0, original_max_position_embeddings=4096, truncate=True))
+optim_cfg = AdamWConfig(lr=6e-05)
+lr_cfg = LRConfig(lr_type="cosine", lr_min=1e-6)
+fsdp_cfg = FSDPConfig(
+    torch_compile=False,
+    cpu_offload=False,
+    ep_size=moe_cfg.ep_size,
+)
+
+dataset_config = [
+    {
+        "dataset": DatasetConfig(name="alpaca", anno_path=ALPACA_PATH, sample_ratio=1.0),
+        "tokenize_fn": FTDPTokenizeFnConfig(max_length=16384),
+    },
+]
+
+dataloader_config = DataloaderConfig(pack_max_length=16384)
+
+loss_cfg = CELossConfig()
+
+
+trainer = TrainerConfig(
+    load_from=GPTOSS_21B_PATH,
+    model_cfg=gptoss_cfg,
+    optim_cfg=optim_cfg,
+    fsdp_cfg=fsdp_cfg,
+    dataset_cfg=dataset_config,
+    dataloader_cfg=dataloader_config,
+    lr_cfg=lr_cfg,
+    loss_cfg=loss_cfg,
+    tokenizer_path=GPTOSS_21B_PATH,
+    global_batch_size=16,
+    total_epoch=1,
+    work_dir=f"/mnt/shared-storage-user/llmrazor-share/qa-llm-cicd/test_output/{os.environ['GITHUB_RUN_ID']}/gptoss-sft/sft",
+    seed=0,
+)