forward fix

cccclai · web-flow · commit 7faf6b2eccb2 · 2025-08-14T18:11:08.000-07:00
Differential Revision: D80281988 Pull Request resolved: #13429
diff --git a/examples/models/llama/model_args.py b/examples/models/llama/model_args.py
@@ -66,6 +66,9 @@ class ModelArgs:
     target_modules: Optional[list] = None
     peft_type: Optional[str] = None  # PEFT type.
     base_model_name_or_path: Optional[str] = None  # Base model name or path.
+    kv_io_bit_width: Optional[int] = (
+        None  # KV cache bit width. This is for QNN backend only for now.
+    )
 
     def __post_init__(self):
         if self.n_kv_heads is None: