hexagon: update to hex-sdk 6.4.0 and add scripts for running on QDC

max-krasnyansky · max-krasnyansky · commit d9f50fa5021a · 2025-10-18T22:28:09.000-07:00
diff --git a/.github/workflows/build.yml b/.github/workflows/build.yml
@@ -1347,16 +1347,16 @@ jobs:
         id: install_hexsdk
         if: ${{ matrix.build == 'arm64-snapdragon' }}
         env:
-          HEXSDK_VER: 6.3.0
+          HEXSDK_VER: 6.4.0.2
           HEXTLS_VER: 19.0.04
         run: |
           curl -L -o hex-sdk.tar.gz https://github.com/snapdragon-toolchain/hexagon-sdk/releases/download/v$HEXSDK_VER/hexagon-sdk-v$HEXSDK_VER-amd64-lnx.tar.xz
           mkdir hex-sdk
           tar -xaf hex-sdk.tar.gz -C hex-sdk
           ls -l hex-sdk
           sudo mv hex-sdk /opt/hexagon
-          echo "HEXAGON_SDK_ROOT=/opt/hexagon/$HEXSDK_VER.0"                                   >> "$GITHUB_ENV"
-          echo "HEXAGON_TOOLS_ROOT=/opt/hexagon/$HEXSDK_VER.0/tools/HEXAGON_Tools/$HEXTLS_VER" >> "$GITHUB_ENV"
+          echo "HEXAGON_SDK_ROOT=/opt/hexagon/$HEXSDK_VER"                                     >> "$GITHUB_ENV"
+          echo "HEXAGON_TOOLS_ROOT=/opt/hexagon/$HEXSDK_VER/tools/HEXAGON_Tools/$HEXTLS_VER"   >> "$GITHUB_ENV"
           echo "DEFAULT_HLOS_ARCH=64"                                                          >> "$GITHUB_ENV"
           echo "DEFAULT_TOOLS_VARIANT=toolv19"                                                 >> "$GITHUB_ENV"
           echo "DEFAULT_NO_QURT_INC=0"                                                         >> "$GITHUB_ENV"
@@ -1373,7 +1373,7 @@ jobs:
         run: |
           cmake ${{ matrix.defines }} -B build
           cmake --build build
-          cmake --install build --prefix pkg
+          cmake --install build --prefix pkg-adb/llama.cpp
 
       - name: Test
         id: cmake_test
diff --git a/docs/backend/hexagon/README.md b/docs/backend/hexagon/README.md
@@ -8,7 +8,7 @@ This image includes Android NDK, OpenCL SDK, Hexagon SDK, CMake, etc.
 This method works on Linux, macOS, and Windows. macOS and Windows users should install Docker Desktop.
 
 ```
-~/src/llama.cpp$ docker run -it -u $(id -u):$(id -g) --volume $(pwd):/workspace --platform linux/amd64 ghcr.io/snapdragon-toolchain/arm64-android:v0.2
+~/src/llama.cpp$ docker run -it -u $(id -u):$(id -g) --volume $(pwd):/workspace --platform linux/amd64 ghcr.io/snapdragon-toolchain/arm64-android:v0.3
 [d]/> cd /workspace
 ```
 
@@ -26,7 +26,7 @@ Preset CMake variables:
   GGML_HEXAGON="ON"
   GGML_OPENCL="ON"
   GGML_OPENMP="OFF"
-  HEXAGON_SDK_ROOT="/opt/hexagon/6.3.0.0"
+  HEXAGON_SDK_ROOT="/opt/hexagon/6.4.0.2"
 ...
 -- Including OpenCL backend
 -- Including Hexagon backend
@@ -49,19 +49,19 @@ Preset CMake variables:
 To generate an installable "package" simply use cmake --install:
 
 ```
-[d]/workspace> cmake --install build-snapdragon --prefix pkg-snapdragon
+[d]/workspace> cmake --install build-snapdragon --prefix pkg-adb/llama.cpp
 -- Install configuration: "Release"
--- Installing: /workspace/pkg-snapdragon/lib/libggml-cpu.so
--- Installing: /workspace/pkg-snapdragon/lib/libggml-opencl.so
--- Installing: /workspace/pkg-snapdragon/lib/libggml-hexagon.so
--- Installing: /workspace/pkg-snapdragon/lib/libggml-htp-v73.so
--- Installing: /workspace/pkg-snapdragon/lib/libggml-htp-v75.so
--- Installing: /workspace/pkg-snapdragon/lib/libggml-htp-v79.so
--- Installing: /workspace/pkg-snapdragon/lib/libggml-htp-v81.so
--- Installing: /workspace/pkg-snapdragon/lib/libggml.so
+-- Installing: /workspace/pkg-adb/llama.cpp/lib/libggml-cpu.so
+-- Installing: /workspace/pkg-adb/llama.cpp/lib/libggml-opencl.so
+-- Installing: /workspace/pkg-adb/llama.cpp/lib/libggml-hexagon.so
+-- Installing: /workspace/pkg-adb/llama.cpp/lib/libggml-htp-v73.so
+-- Installing: /workspace/pkg-adb/llama.cpp/lib/libggml-htp-v75.so
+-- Installing: /workspace/pkg-adb/llama.cpp/lib/libggml-htp-v79.so
+-- Installing: /workspace/pkg-adb/llama.cpp/lib/libggml-htp-v81.so
+-- Installing: /workspace/pkg-adb/llama.cpp/lib/libggml.so
 ...
--- Installing: /workspace/pkg-snapdragon/bin/llama-bench
--- Installing: /workspace/pkg-snapdragon/bin/llama-cli
+-- Installing: /workspace/pkg-adb/llama.cpp/bin/llama-bench
+-- Installing: /workspace/pkg-adb/llama.cpp/bin/llama-cli
 ...
 ```
 
@@ -74,10 +74,10 @@ Once ADB is enabled, use `adb push` to install `pkg-snapdragon` on the device.
 **Note that the toolchain Docker image doesn't have ADB and doesn't set up the ADB bridge. Please use native ADB on the host.**
 
 ```
-~/src/llama.cpp$ adb push pkg-snapdragon/* /data/local/tmp/llama.cpp
-pkg-snapdragon/bin/: 67 files pushed, 0 skipped. 190.2 MB/s (919095042 bytes in 4.607s)
-pkg-snapdragon/include/: 19 files pushed, 0 skipped. 20.5 MB/s (255173 bytes in 0.012s)
-pkg-snapdragon/lib/: 16 files pushed, 0 skipped. 144.4 MB/s (43801382 bytes in 0.289s)
+~/src/llama.cpp$ adb push pkg-adb/llama.cpp /data/local/tmp/
+pkg-adb/llama.cpp/bin/: 67 files pushed, 0 skipped. 190.2 MB/s (919095042 bytes in 4.607s)
+pkg-adb/llama.cpp/include/: 19 files pushed, 0 skipped. 20.5 MB/s (255173 bytes in 0.012s)
+pkg-adb/llama.cpp/lib/: 16 files pushed, 0 skipped. 144.4 MB/s (43801382 bytes in 0.289s)
 102 files pushed, 0 skipped. 186.9 MB/s (963151597 bytes in 4.914s)
 ```
 
diff --git a/docs/backend/hexagon/developer.md b/docs/backend/hexagon/developer.md
@@ -14,14 +14,14 @@ The Hexagon backend consist of two parts:
 Here is an example of the build artifacts
 
 ```
-~/src/llama.cpp$ ls -l pkg-snapdragon/lib/libggml*
-pkg-snapdragon/lib/libggml-base.so
-pkg-snapdragon/lib/libggml-cpu.so
-pkg-snapdragon/lib/libggml-hexagon.so      <<< CPU library
-pkg-snapdragon/lib/libggml-htp-v73.so      <<< HTP op/kernels for Hexagon v73
-pkg-snapdragon/lib/libggml-htp-v75.so
-pkg-snapdragon/lib/libggml-htp-v79.so
-pkg-snapdragon/lib/libggml-htp-v81.so
+~/src/llama.cpp$ ls -l pkg-adb/llama.cpp/lib/libggml*
+pkg-adb/llama.cpp/lib/libggml-base.so
+pkg-adb/llama.cpp/lib/libggml-cpu.so
+pkg-adb/llama.cpp/lib/libggml-hexagon.so      <<< CPU library
+pkg-adb/llama.cpp/lib/libggml-htp-v73.so      <<< HTP op/kernels for Hexagon v73
+pkg-adb/llama.cpp/lib/libggml-htp-v75.so
+pkg-adb/llama.cpp/lib/libggml-htp-v79.so
+pkg-adb/llama.cpp/lib/libggml-htp-v81.so
 ```
 
 ## Memory buffers
@@ -49,7 +49,7 @@ Each Hexagon device behaves like a GPU from the offload and model splitting pers
 Here is an example of running GPT-OSS-20B model on a newer Snapdragon device with 16GB of DDR.
 
 ```
-M=gpt-oss-20b-Q4_0.gguf NDEV=4 D=HTP0,HTP1,HTP2,HTP3 P=surfing.txt docs/backend/hexagon/run-cli.sh -no-cnv -f surfing.txt -n 32
+M=gpt-oss-20b-Q4_0.gguf NDEV=4 D=HTP0,HTP1,HTP2,HTP3 P=surfing.txt scripts/snapdragon/adb/run-cli.sh -no-cnv -f surfing.txt -n 32
 ...
 LD_LIBRARY_PATH=/data/local/tmp/llama.cpp/lib
 ADSP_LIBRARY_PATH=/data/local/tmp/llama.cpp/lib
diff --git a/scripts/snapdragon/qdc/readme.md b/scripts/snapdragon/qdc/readme.md
@@ -0,0 +1 @@
+This directory includes pytest based scripts for running CI jobs on Qualcomm Device Cloud (QDC).
diff --git a/scripts/snapdragon/qdc/requirements.txt b/scripts/snapdragon/qdc/requirements.txt
@@ -0,0 +1,25 @@
+Appium-Python-Client==5.2.4
+attrs==25.4.0
+certifi==2025.10.5
+exceptiongroup==1.3.0
+h11==0.16.0
+idna==3.11
+iniconfig==2.1.0
+outcome==1.3.0.post0
+packaging==25.0
+pluggy==1.6.0
+Pygments==2.19.2
+PySocks==1.7.1
+pytest==8.4.2
+pytest-dependency==0.6.0
+selenium==4.36.0
+setuptools==80.9.0
+sniffio==1.3.1
+sortedcontainers==2.4.0
+tomli==2.3.0
+trio==0.31.0
+trio-websocket==0.12.2
+typing_extensions==4.15.0
+urllib3==2.5.0
+websocket-client==1.9.0
+wsproto==1.2.0
diff --git a/scripts/snapdragon/qdc/tests/test_bench.py b/scripts/snapdragon/qdc/tests/test_bench.py
@@ -0,0 +1,54 @@
+import pytest,subprocess,sys
+
+tmp_path='/data/local/tmp'
+pkg_path=f'{tmp_path}/llama.cpp'
+lib_path=f'{pkg_path}/lib'
+bin_path=f'{pkg_path}/bin'
+
+model='../gguf/Llama-3.2-1B-Instruct-Q4_0.gguf'
+cli_pref=f'cd {pkg_path} && LD_LIBRARY_PATH={lib_path} ADSP_LIBRARY_PATH={lib_path} {bin_path}'
+
+def run_cmd(cmd):
+    p = subprocess.run(cmd, text = True, stdout = subprocess.PIPE, stderr = subprocess.STDOUT)
+    sys.stdout.write(p.stdout)
+    assert(p.returncode == 0)
+
+@pytest.mark.dependency()
+def test_install():
+    run_cmd([ 'adb', 'push', 'llama.cpp', f'{tmp_path}' ])
+    run_cmd([ 'adb', 'shell', f'chmod 755 {bin_path}/*' ])
+
+## Basic cli tests
+def run_llama_cli(dev, opts):
+    run_cmd([ 'adb', 'shell',
+        f'{cli_pref}/llama-cli -m {model} --device {dev} -ngl 99 --batch-size 128 -n 128 -t 4 -no-cnv --seed 42 {opts} ' +
+        f'-p "what is the most popular cookie in the world?\nPlease provide a very brief bullet point summary.\nBegin your answer with **BEGIN**."'
+        ])
+
+@pytest.mark.dependency(depends=['test_install'])
+def test_llama_cli_cpu():
+    run_llama_cli('none', '-ctk q8_0 -ctv q8_0 -fa on')
+
+@pytest.mark.dependency(depends=['test_install'])
+def test_llama_cli_gpu():
+    run_llama_cli('GPUOpenCL', '-fa on')
+
+@pytest.mark.dependency(depends=['test_install'])
+def test_llama_cli_npu():
+    run_llama_cli('HTP0', '-ctk q8_0 -ctv q8_0 -fa on')
+
+## Basic bench tests
+def run_llama_bench(dev):
+    run_cmd([ 'adb', 'shell',
+        f'{cli_pref}/llama-bench -m {model} --device {dev} -ngl 99 --batch-size 128 -t 4 -p 128 -n 32'
+        ])
+
+@pytest.mark.dependency(depends=['test_install'])
+def test_llama_bench_cpu():
+    run_llama_bench('none')
+
+def test_llama_bench_gpu():
+    run_llama_bench('GPUOpenCL')
+
+def test_llama_bench_npu():
+    run_llama_bench('HTP0')

Original file line number	Diff line number	Diff line change
`@@ -0,0 +1 @@`
	`1`	`+This directory includes pytest based scripts for running CI jobs on Qualcomm Device Cloud (QDC).`