Fix CI script for static llama

winskuo-quic · winskuo-quic · commit 574838e9ae04 · 2025-02-07T16:23:38.000+08:00
diff --git a/.github/workflows/pull.yml b/.github/workflows/pull.yml
@@ -442,8 +442,11 @@ jobs:
 
   # Compile only as weight sharing is not applicable on x86
   test-static-llama-size-qnn-linux:
-    name: test-static-llama-runner-qnn-linux
-    uses: pytorch/test-infra/.github/workflows/linux_job.yml@main
+    name: test-static-llama-size-qnn-linux
+    uses: pytorch/test-infra/.github/workflows/linux_job_v2.yml@main
+    permissions:
+      id-token: write
+      contents: read
     strategy:
       fail-fast: false
     with:
@@ -457,22 +460,28 @@ jobs:
         CONDA_ENV=$(conda env list --json | jq -r ".envs | .[-1]")
         conda activate "${CONDA_ENV}"
 
+        BUILD_TOOL="cmake"
+
         PYTHON_EXECUTABLE=python bash .ci/scripts/setup-qnn-deps.sh
         PYTHON_EXECUTABLE=python bash .ci/scripts/build-qnn-sdk.sh
 
         # Setup executorch
         PYTHON_EXECUTABLE=python bash .ci/scripts/setup-linux.sh "${BUILD_TOOL}"
 
+        # Setup install_requirements for llama
+        PYTHON_EXECUTABLE=python bash examples/models/llama/install_requirements.sh
+
         # Retrieve 110M Stories Llama Artifacts
+        PYTHON_EXECUTABLE=python . .ci/scripts/utils.sh
         PYTHON_EXECUTABLE=python download_stories_model_artifacts
-        $PYTHON_EXECUTABLE -m extension.llm.tokenizer.tokenizer -t tokenizer.model -o tokenizer.bin
+        PYTHONPATH="${PWD}" python -m extension.llm.tokenizer.tokenizer -t tokenizer.model -o tokenizer.bin
         
         # Test static llama stories110m pte size
-        PYTHON_EXECUTABLE=python backends/qualcomm/tests/test_qnn_delegate.py -k TestExampleScript.test_stories_single_llama --model SM8650 --build_folder build-android/ --executorch_root . --artifact_dir . --compile_only"
+        PYTHONPATH="${PWD}" python backends/qualcomm/tests/test_qnn_delegate.py -k TestExampleScript.test_stories_single_llama --model SM8650 --build_folder build-android/ --executorch_root . --artifact_dir . --compile_only
 
   # Checks accuracy with weight sharing disabled since x86 does not support weight sharing.
   test-static-llama-accuracy-qnn-linux:
-    name: test-static-llama-runner-qnn-linux
+    name: test-static-llama-accuracy-qnn-linux
     uses: pytorch/test-infra/.github/workflows/linux_job.yml@main
     strategy:
       fail-fast: false
@@ -487,18 +496,23 @@ jobs:
         CONDA_ENV=$(conda env list --json | jq -r ".envs | .[-1]")
         conda activate "${CONDA_ENV}"
 
+        BUILD_TOOL="cmake"
+
         PYTHON_EXECUTABLE=python bash .ci/scripts/setup-qnn-deps.sh
         PYTHON_EXECUTABLE=python bash .ci/scripts/build-qnn-sdk.sh
 
         # Setup executorch
         PYTHON_EXECUTABLE=python bash .ci/scripts/setup-linux.sh "${BUILD_TOOL}"
 
+        # Setup install_requirements for llama
+        PYTHON_EXECUTABLE=python bash examples/models/llama/install_requirements.sh
+
         # Retrieve 110M Stories Llama Artifacts
+        PYTHON_EXECUTABLE=python . .ci/scripts/utils.sh
         PYTHON_EXECUTABLE=python download_stories_model_artifacts
-        $PYTHON_EXECUTABLE -m extension.llm.tokenizer.tokenizer -t tokenizer.model -o tokenizer.bin
         
         # Test static llama stories110m accuracy
-        PYTHON_EXECUTABLE=python backends/qualcomm/tests/test_qnn_delegate.py -k TestExampleScript.test_stories_single_llama --model SM8650 --build_folder build-x86_64/ --executorch_root . --artifact_dir . --enable_x86_64"
+        PYTHONPATH="${PWD}" python backends/qualcomm/tests/test_qnn_delegate.py -k TestExampleScript.test_stories_single_llama --model SM8650 --build_folder build-x86_64/ --executorch_root . --artifact_dir . --enable_x86_64
 
   test-qnn-models-linux:
     name: test-qnn-models-linux