Fix CI script for static llama

winskuo-quic · winskuo-quic · commit fd5f7ac9eb20 · 2025-02-04T16:41:43.000+08:00
diff --git a/.ci/scripts/utils.sh b/.ci/scripts/utils.sh
@@ -149,6 +149,7 @@ download_stories_model_artifacts() {
   # Create params.json file
   touch params.json
   echo '{"dim": 768, "multiple_of": 32, "n_heads": 12, "n_layers": 12, "norm_eps": 1e-05, "vocab_size": 32000}' > params.json
+  ${PYTHON_EXECUTABLE} -m extension.llm.tokenizer.tokenizer -t tokenizer.model -o tokenizer.bin
 }
 
 do_not_use_nightly_on_ci() {
diff --git a/.github/workflows/pull.yml b/.github/workflows/pull.yml
@@ -442,7 +442,7 @@ jobs:
 
   # Compile only as weight sharing is not applicable on x86
   test-static-llama-size-qnn-linux:
-    name: test-static-llama-runner-qnn-linux
+    name: test-static-llama-size-qnn-linux
     uses: pytorch/test-infra/.github/workflows/linux_job_v2.yml@main
     permissions:
       id-token: write
@@ -460,22 +460,27 @@ jobs:
         CONDA_ENV=$(conda env list --json | jq -r ".envs | .[-1]")
         conda activate "${CONDA_ENV}"
 
+        BUILD_TOOL="cmake"
+
         PYTHON_EXECUTABLE=python bash .ci/scripts/setup-qnn-deps.sh
         PYTHON_EXECUTABLE=python bash .ci/scripts/build-qnn-sdk.sh
 
         # Setup executorch
         PYTHON_EXECUTABLE=python bash .ci/scripts/setup-linux.sh "${BUILD_TOOL}"
 
+        # Setup install_requirements for llama
+        PYTHON_EXECUTABLE=python bash examples/models/llama/install_requirements.sh
+
         # Retrieve 110M Stories Llama Artifacts
+        PYTHON_EXECUTABLE=python . .ci/scripts/utils.sh
         PYTHON_EXECUTABLE=python download_stories_model_artifacts
-        $PYTHON_EXECUTABLE -m extension.llm.tokenizer.tokenizer -t tokenizer.model -o tokenizer.bin
         
         # Test static llama stories110m pte size
-        PYTHON_EXECUTABLE=python backends/qualcomm/tests/test_qnn_delegate.py -k TestExampleScript.test_stories_single_llama --model SM8650 --build_folder build-android/ --executorch_root . --artifact_dir . --compile_only"
+        PYTHONPATH="${PWD}" python backends/qualcomm/tests/test_qnn_delegate.py -k TestExampleScript.test_stories_single_llama --model SM8650 --build_folder build-android/ --executorch_root . --artifact_dir . --compile_only"
 
   # Checks accuracy with weight sharing disabled since x86 does not support weight sharing.
   test-static-llama-accuracy-qnn-linux:
-    name: test-static-llama-runner-qnn-linux
+    name: test-static-llama-accuracy-qnn-linux
     uses: pytorch/test-infra/.github/workflows/linux_job.yml@main
     strategy:
       fail-fast: false
@@ -490,18 +495,23 @@ jobs:
         CONDA_ENV=$(conda env list --json | jq -r ".envs | .[-1]")
         conda activate "${CONDA_ENV}"
 
+        BUILD_TOOL="cmake"
+
         PYTHON_EXECUTABLE=python bash .ci/scripts/setup-qnn-deps.sh
         PYTHON_EXECUTABLE=python bash .ci/scripts/build-qnn-sdk.sh
 
         # Setup executorch
         PYTHON_EXECUTABLE=python bash .ci/scripts/setup-linux.sh "${BUILD_TOOL}"
 
+        # Setup install_requirements for llama
+        PYTHON_EXECUTABLE=python bash examples/models/llama/install_requirements.sh
+
         # Retrieve 110M Stories Llama Artifacts
+        PYTHON_EXECUTABLE=python . .ci/scripts/utils.sh
         PYTHON_EXECUTABLE=python download_stories_model_artifacts
-        $PYTHON_EXECUTABLE -m extension.llm.tokenizer.tokenizer -t tokenizer.model -o tokenizer.bin
         
         # Test static llama stories110m accuracy
-        PYTHON_EXECUTABLE=python backends/qualcomm/tests/test_qnn_delegate.py -k TestExampleScript.test_stories_single_llama --model SM8650 --build_folder build-x86_64/ --executorch_root . --artifact_dir . --enable_x86_64"
+        PYTHONPATH="${PWD}" python backends/qualcomm/tests/test_qnn_delegate.py -k TestExampleScript.test_stories_single_llama --model SM8650 --build_folder build-x86_64/ --executorch_root . --artifact_dir . --enable_x86_64"
 
   test-qnn-models-linux:
     name: test-qnn-models-linux

Original file line number	Diff line number	Diff line change
`@@ -149,6 +149,7 @@ download_stories_model_artifacts() {`
`149`	`149`	`# Create params.json file`
`150`	`150`	`touch params.json`
`151`	`151`	`echo '{"dim": 768, "multiple_of": 32, "n_heads": 12, "n_layers": 12, "norm_eps": 1e-05, "vocab_size": 32000}' > params.json`
	`152`	`+ ${PYTHON_EXECUTABLE} -m extension.llm.tokenizer.tokenizer -t tokenizer.model -o tokenizer.bin`
`152`	`153`	`}`
`153`	`154`
`154`	`155`	`do_not_use_nightly_on_ci() {`