fix: re-naming of qcfg inference parameter

bayo-ibm · bayo-ibm · commit adb7f3838592 · 2025-08-27T11:40:00.000-04:00
Signed-off-by: Omobayode Fagbohungbe &lt;omobayode.fagbohungbe@ibm.com&gt;
diff --git a/fms_mo/dq.py b/fms_mo/dq.py
@@ -176,7 +176,7 @@ def run_dq(model_args, data_args, opt_args, fms_mo_args):
                         loading fms_mo_args and recipe"
             )
             qcfg = qconfig_init(recipe="dq", args=fms_mo_args)
-        qcfg["inference"] = True
+        qcfg["fp8_inference"] = True
 
     model_size = model_size_Wb(model, unit="GB")
     gpu_mem_util_per = model_size / total_gpu_memory
diff --git a/fms_mo/prep.py b/fms_mo/prep.py
@@ -701,7 +701,7 @@ def qmodel_prep(
     Returns:
         nn.Module: quantized model ready for further PTQ/QAT
     """
-    if qcfg["inference"]:
+    if qcfg["fp8_inference"]:
         if qcfg.get("QBmm"):
             swap_qbmm(model, qcfg)
 
diff --git a/fms_mo/recipes/dq.json b/fms_mo/recipes/dq.json
@@ -11,6 +11,6 @@
     "nbits_bmm1" : 32,
     "nbits_bmm2" : 32,
     "nbits_kvcache" : 32,
-    "inference": false,
+    "fp8_inference": false,
     "output_folder": null
 }
diff --git a/fms_mo/utils/qconfig_utils.py b/fms_mo/utils/qconfig_utils.py
@@ -88,8 +88,6 @@ def config_defaults() -> dict:
         "nbits_w_lstm": None,
         "nbits_i_lstm": None,
         "nbits_h_lstm": None,
-        "inference": False,
-        "output_folder": None,
         # qmodes vars
         "qa_mode": "pact+",
         "qw_mode": "sawb+",
@@ -152,6 +150,8 @@ def config_defaults() -> dict:
         "smoothq_scale_layers": [],
         "smoothq_act_scale_path": None,
         # Other vars
+        "fp8_inference": False,
+        "output_folder": None,
         "which2patch_contextmanager": None,
         "force_stop_if_qbmm_auto_check_failed": False,
         "world_size": max(1, torch.cuda.device_count()),
@@ -301,7 +301,7 @@ def qconfig_init(recipe: str = None, args: Any = None, use_mx: bool = False) ->
     qcfg["w_init_method"] = "sawb"
     qcfg["a_init_method"] = "percentile"
     qcfg["clip_val_asst_percentile"] = (0.1, 99.9)
-    qcfg["inference"] = False
+    qcfg["fp8_inference"] = False
     qcfg["output_folder"] = None
 
     # ways to control which layers to be quantized/skipped

Original file line number	Diff line number	Diff line change
`@@ -176,7 +176,7 @@ def run_dq(model_args, data_args, opt_args, fms_mo_args):`
`176`	`176`	`loading fms_mo_args and recipe"`
`177`	`177`	`)`
`178`	`178`	`qcfg = qconfig_init(recipe="dq", args=fms_mo_args)`
`179`		`- qcfg["inference"] = True`
	`179`	`+ qcfg["fp8_inference"] = True`
`180`	`180`
`181`	`181`	`model_size = model_size_Wb(model, unit="GB")`
`182`	`182`	`gpu_mem_util_per = model_size / total_gpu_memory`
Original file line number	Diff line number	Diff line change
`@@ -11,6 +11,6 @@`
`11`	`11`	`"nbits_bmm1" : 32,`
`12`	`12`	`"nbits_bmm2" : 32,`
`13`	`13`	`"nbits_kvcache" : 32,`
`14`		`- "inference": false,`
	`14`	`+ "fp8_inference": false,`
`15`	`15`	`"output_folder": null`
`16`	`16`	`}`