Update

jackzhxng · jackzhxng · commit b552d60e3b7b · 2025-06-20T18:44:31.000-07:00
[ghstack-poisoned]
diff --git a/.ci/scripts/test_llama.sh b/.ci/scripts/test_llama.sh
@@ -241,7 +241,7 @@ if [[ "${QNN}" == "ON" ]]; then
   EXPORT_ARGS="${EXPORT_ARGS} backend.qnn.enabled=true model.enable_dynamic_shape=false debug.verbose=true"
   echo "PT2E_QUANTIZE is ${PT2E_QUANTIZE}"
   if [[ "${PT2E_QUANTIZE}" == "qnn_16a16w" ]]; then
-    EXPORT_ARGS+=" base.tokenizer_path=tokenizer.model quantization.pt2e_quantize=qnn_16a16w quantization.calibration_tasks=\"[wikitext]\" quantization.calibration_limit=1 quantization.calibration_seq_length=128 quantization.calibration_data=\"Once\""
+    EXPORT_ARGS+=" base.tokenizer_path=tokenizer.model quantization.pt2e_quantize=qnn_16a16w quantization.calibration_tasks=[\"wikitext\"] quantization.calibration_limit=1 quantization.calibration_seq_length=128 quantization.calibration_data=\"Once\""
   fi
 fi
 if [[ "${QUANTIZE_KV_CACHE}" == "ON" ]]; then
diff --git a/.ci/scripts/test_llama_torchao_lowbit.sh b/.ci/scripts/test_llama_torchao_lowbit.sh
@@ -78,7 +78,7 @@ ${PYTHON_EXECUTABLE} -m extension.llm.export.export_llm \
     export.output_name="${MODEL_OUT}" \
     quantization.qmode="torchao:8da${QLINEAR_BITWIDTH}w" \
     quantization.group_size=${QLINEAR_GROUP_SIZE} \
-    quantization.embedding_quantize="torchao:${QEMBEDDING_BITWIDTH},${QEMBEDDING_GROUP_SIZE}" \
+    quantization.embedding_quantize=\"torchao:${QEMBEDDING_BITWIDTH},${QEMBEDDING_GROUP_SIZE}\" \
     model.dtype_override=fp32
 
 # Test run
diff --git a/.github/workflows/android-perf.yml b/.github/workflows/android-perf.yml
@@ -230,7 +230,7 @@ jobs:
                       model.dtype_override=fp32 \
                       base.preq_embedding_quantize="8,0" \
                       quantization.use_spin_quant=native \
-                      base.metadata="{\"get_bos_id\":128000,\"get_eos_ids\":[128009,128001]}"
+                      base.metadata="\{\"get_bos_id\":128000,\"get_eos_ids\":[128009,128001]\}"
                     ls -lh "${OUT_ET_MODEL_NAME}.pte"
                 elif [[ ${{ matrix.config }} == "llama3_qlora" ]]; then
                     # QAT + LoRA
@@ -258,7 +258,7 @@ jobs:
                       export.max_seq_length=2048 \
                       export.max_context_length=2048 \
                       export.output_name="${OUT_ET_MODEL_NAME}.pte" \
-                      base.metadata="{\"get_bos_id\":128000,\"get_eos_ids\":[128009,128001]}"
+                      base.metadata="\{\"get_bos_id\":128000,\"get_eos_ids\":[128009,128001]\}"
                     ls -lh "${OUT_ET_MODEL_NAME}.pte"
                 elif [[ ${{ matrix.config }} == "llama3_fb16" ]]; then
                     # Original BF16 version, without any quantization
@@ -271,7 +271,7 @@ jobs:
                       model.use_sdpa_with_kv_cache=true \
                       backend.xnnpack.enabled=true \
                       model.dtype_override=bf16 \
-                      base.metadata="{\"get_bos_id\":128000,\"get_eos_ids\":[128009,128001]}" \
+                      base.metadata="\{\"get_bos_id\":128000,\"get_eos_ids\":[128009,128001]\}" \
                       export.output_name="${OUT_ET_MODEL_NAME}.pte"
                     ls -lh "${OUT_ET_MODEL_NAME}.pte"
                 elif [[ ${{ matrix.config }} == "et_xnnpack_custom_spda_kv_cache_8da4w" ]]; then
@@ -288,7 +288,7 @@ jobs:
                       quantization.qmode=8da4w \
                       quantization.group_size=32 \
                       quantization.embedding_quantize="8,0" \
-                      base.metadata="{\"get_bos_id\":128000,\"get_eos_ids\":[128009,128001]}" \
+                      base.metadata="\{\"get_bos_id\":128000,\"get_eos_ids\":[128009,128001]\}" \
                       export.output_name="${OUT_ET_MODEL_NAME}.pte"
                     ls -lh "${OUT_ET_MODEL_NAME}.pte"
                 elif [[ ${{ matrix.config }} == "llama3_qnn_htp" ]]; then
@@ -326,7 +326,7 @@ jobs:
                   quantization.qmode=8da4w \
                   quantization.group_size=32 \
                   quantization.embedding_quantize="8,0" \
-                  base.metadata="{\"get_bos_id\":151644,\"get_eos_ids\":[151645]}" \
+                  base.metadata="\{\"get_bos_id\":151644,\"get_eos_ids\":[151645]\}" \
                   export.output_name="${OUT_ET_MODEL_NAME}.pte"
                 ls -lh "${OUT_ET_MODEL_NAME}.pte"
               fi
diff --git a/.github/workflows/apple-perf.yml b/.github/workflows/apple-perf.yml
@@ -239,7 +239,7 @@ jobs:
                 model.dtype_override=fp32 \
                 base.preq_embedding_quantize="8,0" \
                 quantization.use_spin_quant=native \
-                base.metadata="{\"get_bos_id\":128000,\"get_eos_ids\":[128009,128001]}"
+                base.metadata="\{\"get_bos_id\":128000,\"get_eos_ids\":[128009,128001]\}"
               ls -lh "${OUT_ET_MODEL_NAME}.pte"
             elif [[ ${{ matrix.config }} == "llama3_qlora" ]]; then
               # QAT + LoRA
@@ -267,7 +267,7 @@ jobs:
                 export.max_seq_length=2048 \
                 export.max_context_length=2048 \
                 export.output_name="${OUT_ET_MODEL_NAME}.pte" \
-                base.metadata="{\"get_bos_id\":128000,\"get_eos_ids\":[128009,128001]}"
+                base.metadata="\{\"get_bos_id\":128000,\"get_eos_ids\":[128009,128001]\}"
               ls -lh "${OUT_ET_MODEL_NAME}.pte"
             elif [[ ${{ matrix.config }} == "llama3_fb16" ]]; then
               # Original BF16 version, without any quantization
@@ -280,7 +280,7 @@ jobs:
                 model.use_sdpa_with_kv_cache=true \
                 backend.xnnpack.enabled=true \
                 model.dtype_override=bf16 \
-                base.metadata="{\"get_bos_id\":128000,\"get_eos_ids\":[128009,128001]}" \
+                base.metadata="\{\"get_bos_id\":128000,\"get_eos_ids\":[128009,128001]\}" \
                 export.output_name="${OUT_ET_MODEL_NAME}.pte"
               ls -lh "${OUT_ET_MODEL_NAME}.pte"
             elif [[ ${{ matrix.config }} == "et_xnnpack_custom_spda_kv_cache_8da4w" ]]; then
@@ -297,7 +297,7 @@ jobs:
                 quantization.qmode=8da4w \
                 quantization.group_size=32 \
                 quantization.embedding_quantize="8,0" \
-                base.metadata="{\"get_bos_id\":128000,\"get_eos_ids\":[128009,128001]}" \
+                base.metadata="\{\"get_bos_id\":128000,\"get_eos_ids\":[128009,128001]\}" \
                 export.output_name="${OUT_ET_MODEL_NAME}.pte"
               ls -lh "${OUT_ET_MODEL_NAME}.pte"
             elif [[ ${{ matrix.config }} == "llama3_coreml_ane" ]]; then
@@ -331,7 +331,7 @@ jobs:
                   quantization.qmode=8da4w \
                   quantization.group_size=32 \
                   quantization.embedding_quantize="8,0" \
-                  base.metadata="{\"get_bos_id\":151644,\"get_eos_ids\":[151645]}" \
+                  base.metadata="\{\"get_bos_id\":151644,\"get_eos_ids\":[151645]\}" \
                   export.output_name="${OUT_ET_MODEL_NAME}.pte"
                 ls -lh "${OUT_ET_MODEL_NAME}.pte"
             fi
diff --git a/extension/llm/export/test/test_export_llm.py b/extension/llm/export/test/test_export_llm.py
@@ -74,13 +74,13 @@ def test_with_config(self, mock_export_llama: MagicMock) -> None:
             called_config = mock_export_llama.call_args[0][0]
             self.assertEqual(called_config["base"]["tokenizer_path"], "/path/to/tokenizer.json")
             self.assertEqual(called_config["base"]["model_class"], "llama2")
-            self.assertEqual(called_config["base"]["preq_mode"], "preq_8da4w")
-            self.assertEqual(called_config["model"]["dtype_override"], "fp16")
+            self.assertEqual(called_config["base"]["preq_mode"].value, "8da4w")
+            self.assertEqual(called_config["model"]["dtype_override"].value, "fp16")
             self.assertEqual(called_config["export"]["max_seq_length"], 256)
-            self.assertEqual(called_config["quantization"]["pt2e_quantize"], "xnnpack_dynamic")
-            self.assertEqual(called_config["quantization"]["use_spin_quant"], "cuda")
-            self.assertEqual(called_config["backend"]["coreml"]["quantize"], "c4w")
-            self.assertEqual(called_config["backend"]["coreml"]["compute_units"], "cpu_and_gpu")
+            self.assertEqual(called_config["quantization"]["pt2e_quantize"].value, "xnnpack_dynamic")
+            self.assertEqual(called_config["quantization"]["use_spin_quant"].value, "cuda")
+            self.assertEqual(called_config["backend"]["coreml"]["quantize"].value, "c4w")
+            self.assertEqual(called_config["backend"]["coreml"]["compute_units"].value, "cpu_and_gpu")
         finally:
             os.unlink(config_file)