fix(embedding): restore default FP16Clip transform for automodel (#881)

vbaddi · Ann Kuruvilla · commit 2d6fa60a5595 · 2026-03-26T10:45:15.000Z
This PR restores FP16ClipTransform for embedding models (`QEFFAutoModel`) in the default (non-proxy) path, while preserving existing proxy-gated behavior for other model categories. ### What changed - Added per-model support for always-on ONNX transforms in proxy configuration. - Set embedding models to always keep FP16ClipTransform enabled by default. - Embedding accuracy on HW depends on FP16 clipping, so clip must remain enabled for embedding even when proxy is disabled. ### Tests verified - `python -m pytest -q tests/unit_test/models/test_model_quickcheck.py -k "test_text_embedding_fp16_clip_transform_and_export"` cc: @anujgupt-github @quic-rishinr @quic-hemagnih --------- Signed-off-by: vbaddi <vbaddi@qti.qualcomm.com>
diff --git a/QEfficient/transformers/modeling_utils.py b/QEfficient/transformers/modeling_utils.py
@@ -204,8 +204,8 @@ def _configure_proxy_for_model(instance: "QEFFBaseModel", enable_proxy: bool) ->
     """
     Configure per-instance transform lists based on proxy mode.
 
-    By default, clip/split ONNX transforms are disabled for production exports.
-    They are only enabled when proxy flow is explicitly requested.
+    Keep class-defined ONNX transforms by default.
+    Proxy flow appends additional proxy-only transforms.
     """
     instance._pytorch_transforms = list(instance._pytorch_transforms)
     instance._onnx_transforms = list(instance._onnx_transforms)
@@ -218,9 +218,6 @@ def _configure_proxy_for_model(instance: "QEFFBaseModel", enable_proxy: bool) ->
             if transform not in instance._onnx_transforms:
                 instance._onnx_transforms.append(transform)
         logger.info("Proxy Model Enabled for QEfficient Model")
-        return
-
-    instance._onnx_transforms = [t for t in instance._onnx_transforms if t not in _PROXY_ONLY_ONNX_TRANSFORMS]
 
 
 # Define a transformers layers to QEff layers dictionary
diff --git a/QEfficient/transformers/models/modeling_auto.py b/QEfficient/transformers/models/modeling_auto.py
@@ -29,7 +29,7 @@
 
 import QEfficient
 from QEfficient.base.modeling_qeff import QEFFBaseModel
-from QEfficient.base.onnx_transforms import FP16ClipTransform, SplitTensorsTransform
+from QEfficient.base.onnx_transforms import FP16ClipTransform
 from QEfficient.base.pytorch_transforms import SplitGateUpWeightsTransform
 from QEfficient.generation.cloud_infer import QAICInferenceSession
 from QEfficient.generation.text_generation_inference import (
@@ -229,7 +229,7 @@ class QEFFAutoModel(QEFFTransformersBase):
 
     _hf_auto_class = AutoModel
     _pytorch_transforms = [CustomOpsTransform, AwqToMatmulNbitsTransform, GPTQToMatmulNbitsTransform]
-    _onnx_transforms = [FP16ClipTransform, SplitTensorsTransform]
+    _onnx_transforms = [FP16ClipTransform]
 
     def __init__(self, model: nn.Module, pooling=None, **kwargs):
         """
@@ -617,7 +617,7 @@ class QEFFAutoModelForSequenceClassification(QEFFTransformersBase):
 
     _hf_auto_class = AutoModelForSequenceClassification
     _pytorch_transforms = [CustomOpsTransform, TextClassificationTransform]
-    _onnx_transforms = [FP16ClipTransform, SplitTensorsTransform]
+    _onnx_transforms = []
 
     def __init__(self, model: nn.Module, **kwargs):
         """
@@ -859,7 +859,7 @@ class QEffVisionEncoderForTextImageToTextModel(QEFFBaseModel):
         KVCacheTransform,
         KVCacheExternalModuleMapperTransform,
     ]
-    _onnx_transforms = [FP16ClipTransform, SplitTensorsTransform]
+    _onnx_transforms = []
 
     def __init__(self, model: nn.modules, **kwargs):
         """
@@ -998,7 +998,7 @@ class QEffCausalLMForTextImageToTextModel(QEFFBaseModel):
         VlmKVOffloadTransform,
         SplitGateUpWeightsTransform,
     ]
-    _onnx_transforms = [FP16ClipTransform, SplitTensorsTransform]
+    _onnx_transforms = []
 
     def __init__(self, model, qaic_config: Optional[dict] = None, **kwargs):
         """
@@ -1874,7 +1874,7 @@ class _QEFFAutoModelForImageTextToTextSingleQPC(QEFFTransformersBase, Multimodal
         VlmNoKVOffloadTransform,
         SplitGateUpWeightsTransform,
     ]
-    _onnx_transforms = [FP16ClipTransform, SplitTensorsTransform]
+    _onnx_transforms = []
 
     def __init__(
         self,
@@ -2626,7 +2626,7 @@ class QEFFAutoModelForCausalLM(QEFFBaseModel):
         KVCacheExternalModuleMapperTransform,
     ]
 
-    _onnx_transforms = [FP16ClipTransform, SplitTensorsTransform]
+    _onnx_transforms = []
 
     def prefill(
         self,
@@ -3575,7 +3575,7 @@ class QEFFAutoModelForSpeechSeq2Seq(QEFFTransformersBase, MultimodalUtilityMixin
 
     _hf_auto_class = AutoModelForSpeechSeq2Seq
     _pytorch_transforms = [CustomOpsTransform, AwqToMatmulNbitsTransform, GPTQToMatmulNbitsTransform, KVCacheTransform]
-    _onnx_transforms = [FP16ClipTransform, SplitTensorsTransform]
+    _onnx_transforms = []
 
     def __init__(self, model: nn.Module, **kwargs):
         """
@@ -3934,7 +3934,7 @@ class QEFFAutoModelForCTC(QEFFTransformersBase):
 
     _hf_auto_class = AutoModelForCTC
     _pytorch_transforms = [CustomOpsTransform, AwqToMatmulNbitsTransform, GPTQToMatmulNbitsTransform]
-    _onnx_transforms = [FP16ClipTransform, SplitTensorsTransform]
+    _onnx_transforms = []
 
     def __init__(self, model: nn.Module, **kwargs):
         super().__init__(model, **kwargs)
diff --git a/tests/transformers/models/test_embedding_models.py b/tests/transformers/models/test_embedding_models.py
@@ -101,7 +101,6 @@ def check_embed_pytorch_vs_ort_vs_ai100(
     assert os.path.isfile(os.path.join(os.path.dirname(qeff_model.qpc_path), "qconfig.json"))
 
 
-@pytest.mark.skip(reason="Known issue: AI100 compiled model produces high MAD; needs investigation")
 @pytest.mark.on_qaic
 @pytest.mark.llm_model
 @pytest.mark.parametrize("model", embed_test_models)
@@ -112,7 +111,6 @@ def test_embed_model_pytorch_vs_onnx_vs_ai100(model):
     check_embed_pytorch_vs_ort_vs_ai100(model_name=model["model_name"], seq_len=32, n_layer=1)
 
 
-@pytest.mark.skip(reason="Known issue: AI100 compiled model produces high MAD; needs investigation")
 @pytest.mark.on_qaic
 @pytest.mark.llm_model
 @pytest.mark.parametrize("model", embed_test_models)
@@ -123,7 +121,6 @@ def test_embed_model_pytorch_vs_onnx_vs_ai100_pooling(model):
     check_embed_pytorch_vs_ort_vs_ai100(model_name=model["model_name"], seq_len=32, n_layer=1, pooling=model["pooling"])
 
 
-@pytest.mark.skip(reason="Known issue: AI100 compiled model produces high MAD; needs investigation")
 @pytest.mark.on_qaic
 @pytest.mark.llm_model
 @pytest.mark.parametrize("model", embed_test_models[:1])
diff --git a/tests/unit_test/models/test_model_quickcheck.py b/tests/unit_test/models/test_model_quickcheck.py
@@ -25,7 +25,7 @@
 from contextlib import contextmanager, redirect_stderr, redirect_stdout
 from io import StringIO
 from pathlib import Path
-from typing import Dict
+from typing import Dict, Optional, Set
 
 import numpy as np
 import onnx
@@ -189,13 +189,19 @@ def _run_whisper_export_smoke(qeff_model: QEFFAutoModelForSpeechSeq2Seq, out_dir
     return onnx_path
 
 
-def _assert_proxy_only_onnx_transform_policy(qeff_model, enable_proxy: bool) -> None:
+def _assert_proxy_only_onnx_transform_policy(
+    qeff_model, enable_proxy: bool, always_on_transforms: Optional[Set[str]] = None
+) -> None:
     transform_names = {transform.__name__ for transform in qeff_model._onnx_transforms}
     proxy_only_transforms = {"FP16ClipTransform", "SplitTensorsTransform"}
+    always_on_transforms = always_on_transforms or set()
+    conditional_proxy_transforms = proxy_only_transforms - always_on_transforms
+
     if enable_proxy:
         assert proxy_only_transforms.issubset(transform_names)
     else:
-        assert proxy_only_transforms.isdisjoint(transform_names)
+        assert conditional_proxy_transforms.isdisjoint(transform_names)
+        assert always_on_transforms.issubset(transform_names)
 
 
 def _skip_on_model_fetch_error(exc: Exception, model_id: str) -> None:
@@ -357,6 +363,22 @@ def test_text_embedding_cpu_parity_and_export(tmp_path):
     assert np.allclose(hf_outputs, ort_outputs, atol=1e-5)
 
 
+@pytest.mark.llm_model
+def test_text_embedding_fp16_clip_transform_and_export(tmp_path):
+    tokenizer = AutoTokenizer.from_pretrained(TINY_TEXT_EMBEDDING_MODEL_ID)
+    qeff_model = QEFFAutoModel.from_pretrained(TINY_TEXT_EMBEDDING_MODEL_ID)
+    transform_names = {transform.__name__ for transform in qeff_model._onnx_transforms}
+
+    assert "FP16ClipTransform" in transform_names
+    assert "SplitTensorsTransform" not in transform_names
+
+    inputs = tokenizer("hello world", return_tensors="pt")
+    onnx_path = _exported_onnx_path(qeff_model.export(tmp_path / "embedding-ai100"))
+    ort_outputs = _run_embedding_ort(onnx_path, inputs)
+    assert ort_outputs.shape[0] == inputs["input_ids"].shape[0]
+    assert ort_outputs.shape[1] == inputs["input_ids"].shape[1]
+
+
 @pytest.mark.llm_model
 def test_audio_embedding_ctc_cpu_parity_and_export(tmp_path):
     processor = AutoTokenizer.from_pretrained(TINY_AUDIO_CTC_MODEL_ID)
@@ -564,7 +586,9 @@ def test_proxy_toggle_onnx_transform_policy_for_embedding():
     except Exception as exc:
         _skip_on_model_fetch_error(exc, model_id)
 
-    _assert_proxy_only_onnx_transform_policy(qeff_default, enable_proxy=False)
+    _assert_proxy_only_onnx_transform_policy(
+        qeff_default, enable_proxy=False, always_on_transforms={"FP16ClipTransform"}
+    )
     _assert_proxy_only_onnx_transform_policy(qeff_proxy, enable_proxy=True)